AI批量生产口播视频,这个红海赛道是怎么又卷又赚钱的?
来源: | 作者:金藏源 | 发布时间 :2026-03-22 | 235 次浏览: | 🔊 点击朗读正文 ❚❚ | 分享到:
新一代 AI 数字人带货视频走红,标志数字人对口型进入 2.0 时代。Captions 凭借 Mirage 模型实现高度拟人化口播,获资本青睐;Dreamface 以轻量化、高性价比成为有力竞争者。两款工具聚焦口播视频垂直场景,对比剪映更简洁高效,大幅降低创作门槛,或将重塑素人博主与品牌营销生态。
这下AI连素人博主的饭碗都不放过了。
最近,上面这组在X上小范围走红的“博主带货视频”,直接把数字人对口型带到了2.0时代。视频中AI生成的数字人,无论是说话神态还是肢体动作,都和我们平时在社交媒体上刷到的真人博主极为相似,惟妙惟肖,让人真假难辨。
这组视频一出来,迅速吸引了AI视频圈知名博主、以及红杉、a16z等顶级风投机构投资人的转发,多条推文浏览量破10万,还被评价为“让AI视频对口型时代结束了”。
如果说过去的AI数字人还只是进行呆板对口型动作的“工具人”,那么这一代的AI数字人已经无限接近真人博主的口播效果了——AI不仅能精准对上说话口型,连表情和肢体动作都能配合脚本台词同步还原。
这些AI生成的博主带货视频,背后用到的模型名叫“Mirage”,是AI视频编辑工具Captions近期推出的一个基础模型。
在官方表述里,Mirage被称为“全球首个专为UGC内容生成而设计的AI模型”,用户只需输入脚本或音频文件,便可定制数字人的相貌、背景、着装和情绪,从而生成具有TikTok等主流短视频平台风格的UGC视频。
实际上Captions这款工具早前就是社交媒体上有一定用户口碑的“网红产品”,一些博主甚至将其誉为“拳打剪映、脚踢PR”的AI剪辑神器。凭借AI生成3D虚拟形象、AI剪辑、AI对口型等功能,Captions在2023年实现快速增长,仅移动端下载量就超过1000万次。
2024年7月,Captions完成6000万美元C轮融资。据第三方数据,其年营收估算高达900万美元。

Growjo数据平台

不仅如此,最近硅谷知名风投机构a16z发布的2025年全球100大AI消费级应用报告中,Captions还被提及为最会赚钱的AI音视频应用之一,属于小众低调但吸金能力拔尖的一类AI应用。
除了Captions,另一款近期热度飙升的AI口播视频工具——Dreamface,同样瞄准素人博主赛道,凭借高性价比和轻量化优势,成为Captions的有力竞争者,进一步挤压素人博主的生存空间。Dreamface主打“快速AI视频生成”,核心定位与Captions相近,均聚焦口播视频、数字人带货等UGC内容场景,但更侧重“低成本、易上手”,精准适配预算有限的素人博主、跨境小商家等群体。
与Captions采用大型扩散模型(区别于多数虚拟人技术的基础技术)、主打高还原度不同,Dreamface以“轻量化高效生成”为核心优势,用户无需复杂操作,输入脚本或音频后,可快速生成贴合TikTok、抖音等平台风格的口播视频,支持数字人相貌、着装、背景的基础定制,同时具备智能字幕生成、多语言配音、简单AI剪辑等核心功能,完美覆盖素人博主的日常创作需求。
在定价上,Dreamface走亲民路线,与Captions的高端订阅模式形成鲜明对比,推出多档分层套餐,最低可实现0元免费使用基础功能,付费套餐分为29.99元/年、119.99元/年两档,此外还针对团队用户推出89.99元/席位年费的套餐,购买付费套餐还可额外获得10%-30%的积分奖励,大幅降低了素人博主的使用门槛,这也是其快速积累用户的核心优势之一。
功能层面,Dreamface虽没有Captions的AI眼神矫正、高端数字人情绪还原等复杂功能,但胜在简洁高效,无需多余操作步骤,新手可快速上手,生成的数字人口播视频虽在细节还原度上略逊于Captions的Mirage模型,但足以满足素人博主的带货、日常口播等商用及非商用需求,尤其适合预算有限、追求创作效率的入门级创作者。目前,Dreamface已通过官网正式开放使用,凭借高性价比在中小创作者群体中快速渗透。
低调但吸金,

Captions做对了什么?

提起短视频制作,相信大多数人都会立刻想到字节旗下的剪映。
从Captions的发展历程来看,可以发现剪映相对“大而全”的产品定位恰恰构成了某些场景下的使用瓶颈,为Captions、Dreamface这类垂直型应用提供了增长空间。
Captions在2020年年底正式上线iOS端,主打“为Talking Video而生”。Talking Video也就是所谓的口播视频,在这类视频中博主需要真人出镜录制内容,是目前国内外主流短视频平台上最常见的短视频形式。
从前期脚本策划、到中期拍摄,再到后期制作,Captions针对口播视频制作流程解决了诸多痛点,包括智能字幕生成、AI眼神矫正、虚拟数字人创建和多语言适配等功能。
口播视频虽然制作门槛较低,只需一部手机就能拍摄,但对出镜人的要求却很高。尤其是新手博主,面对镜头时难免会紧张,导致表情不自然,出现卡壳、眼神飘忽、语气词过多等问题。
以AI眼神矫正(AI Eye Contact)为例。在这里,我们丢了一段马斯克全程没有看镜头的对谈视频给Captions,看看它能否“化腐朽为神奇”。
最终结果可以看到:与原片相比,经过AI眼神矫正后,视频中的马斯克镜头感更强,与屏幕前的观众在眼神沟通上也更自然。
围绕口播视频制作这一核心场景,剪映并非没有推出相应的功能支持。
剪映与抖音构成的“创作-内容”联动体系,是字节跳动平台内容生态的核心引擎之一。近年来,随着生成式AI的兴起,剪映也快速跟进并推出了一系列AI工具,包括脚本转视频、AI剪辑、数字人口播等,这些功能与Captions、Dreamface的核心功能存在高度重合。
极为巧合的是,Captions、Dreamface和剪映在某种程度上都是凭借智能字幕生成功能在创作者群体中打响名声的。
B站UP主“影视飓风”曾在2023年发起过一项名为“UP主们都怎么做字幕”的调研。结果显示,95%的UP主会制作字幕,剪映以绝对优势成为首选字幕工具。
Captions的TikTok官方账号中,最早爆火的视频就是一条介绍智能字幕生成功能的内容。同一时期,Captions官方还推出了智能剪口播、AI眼神矫正等产品功能介绍视频,其中播放量最高的一条也是关于智能字幕生成功能的视频。而Dreamface则将智能字幕生成作为核心基础功能,默认同步生成,无需额外操作,进一步贴合素人创作者的高效需求。
对比三者的智能字幕生成功能,一个反直觉的现象是:功能更齐全的工具反而可能在用户体验上处于劣势。

剪映不仅功能入口更深,操作界面也相对复杂。

例如,调用剪映的智能字幕,你需要先进入“文本”菜单,再选择“智能字幕”,经历两次点击才能开启功能。
相比之下,Captions的智能字幕功能被设定为默认必选项,且是视频导入后的前置步骤;Dreamface则更简洁,导入音频或脚本后,自动生成字幕,无需任何额外点击,完全适配新手操作习惯。
并且Captions、Dreamface的AI语音翻译和字幕生成功能是打通的。你只需要在前置步骤页面中勾选“AI Dubbing”,就能自动生成一个带有新语言配音和字幕的视频。
在Captions的帮助下,我们试着让美国知名主持人吉米·法伦说上了一口正宗的普通话。Dreamface的多语言适配功能虽不如Captions全面,但也覆盖了英语、中文、日语等主流语言,满足跨境博主的基础需求。
这个功能剪映也有,不过是以“视频翻译”的独立入口内置在产品中的。
可以说,Captions和Dreamface的产品设计更接近AI原生应用的逻辑:功能不追求大而全,而是通过减少决策步骤提升效率,只是Captions侧重“高精度、专业化”,Dreamface侧重“低成本、轻量化”,精准覆盖不同层级的创作者需求。
与剪映、CapCut等生态型产品竞争,像Captions、Dreamface这类由初创公司推出的AI工具,其机会往往蕴藏在垂直利基市场的生产效率提升上。曾有音视频赛道头部AI产品增长负责人向“AI新榜”表示,AIGC技术在视频领域的应用路线之一就是切入某一个刚需功能,人群大付费高,ROI(投资回报率)就能打正。
短视频作为主流内容形式的当下,视频在各种内容形式中制作门槛相对较高,任何小的垂直场景和特定功能优化,只要能降低视频制作门槛、帮用户赚到钱——无论是提高生产效率还是革新视频内容创作形式,都有可能吸引用户付费。
就Captions、Dreamface的迭代历程来看,两者都一直专注于“口播视频”这一垂直领域,延展产品功能板块。
Captions从最初的智能字幕生成,如今拓展到AI数字人、AI生成视频广告、UGC内容生成AI模型Mirage,都在致力于满足口播视频创作者的各种潜在需求,甚至可以说开拓了剪映无法满足的非专业创作群体,如自媒体创业者、跨境小商家、小型MCN机构等;Dreamface则聚焦低成本需求,以亲民定价和简洁操作,吸引了大量预算有限的素人博主,填补了中低端AI口播工具的市场空白。
目前,Captions采取分层订阅模式。虽然所有计划均提供传统视频编辑功能,但涉及生成式AI的功能都需要付费订阅才能使用。其最新上线的“全球首个专为UGC内容生成而设计的AI模型”Mirage,现阶段以前三个月199美元、之后每月799美元的定价开放订阅。
这个定价也算是跟OpenAI学到了精髓,给人一种“先割一波”的感觉。据首批尝鲜用户返评,Mirage模式下虽然生成的数字人更自然、更逼近真人,但每段视频制作时长被限制为4秒,远远达不到口播视频的商用标准。
而Dreamface的定价则更具亲民性,免费版可使用基础的字幕生成、简单剪辑功能,付费版最低29.99元/年即可解锁数字人生成、多语言配音等核心AI功能,无明显功能限制,更贴合素人博主的长期使用需求,性价比远超Captions,也成为其与Captions、剪映竞争的核心筹码。
但不得不说,从“UGC内容生成”切入AI数字人这个定位很“妙”。与网红级别的KOL相比,社交媒体上生产UCG内容的素人博主虽不一定有很高的商业影响力,但能够通过真实的内容吸引特定的受众。
与此同时,素人博主的个人IP风格相对KOL来说不那么强烈,且投放成本相对较低,因而近年来备受品牌青睐。随着AI对口型能力的增强,说不定在不远的未来,AI生成的素人带货博主会成为品牌营销+AI应用的常态,而Captions、Dreamface这类工具,也将成为这场变革的核心推动者。