在人工智能浪潮中,数字人领域的 Dreamface 对口型数字人成为焦点。它采用先进的文本指导渐进式 3D 生成框架,融合视觉 - 语言模型、隐式扩散模型和物理材质扩散技术,包含几何体生成、基于物理的材质扩散生成和动画能力生成三大核心模块。Dreamface 具有高效创作速度,能 5 分钟生成指定 3D 资产;超写实呈现效果,面部细节和纹理质感高度还原;强大自定义能力,支持提示和草图纹理编辑。其应用广泛,在影视行业可快速生成虚拟角色,在游戏领域能丰富角色和玩法,还可用于教育、广告、直播等行业。未来,Dreamface 在真实感、交互智能性和多模态融合方面有广阔前景,但也面临版权、伦理道德和技术瓶颈等挑战。总体而言,Dreamface 代表数字人技术重大转变,有望推动数字人技术突破创新,开启数字人新时代。
(二)三大模块的协同运作
在这个强大的生成框架下,Dreamface 还包含了三个核心模块:几何体生成、基于物理的材质扩散生成和动画能力生成。这三个模块相互协作、紧密配合,如同一个精密的机器中的各个部件,共同打造出栩栩如生的数字人形象。
几何体生成模块可以根据文本提示生成与之一致的几何模型。在人脸生成方面,由于其复杂性,可能难以监督和收敛。因此,Dreamface 提出了一个基于 CLIP(Contrastive Language - Image Pre - Training)的选择框架。首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,就好比在众多初步设计方案中挑选出最具潜力的一个。然后,使用隐式扩散模型(LDM)在随机视角和光照条件下对渲染图像进行得分蒸馏采样(SDS)处理,通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节,从而得到高度精细的几何体,就像工匠对初步的设计进行精雕细琢,使其更加完美。与头部模型类似,Dreamface 还基于该框架进行发型和颜色的选择,从各个方面构建出符合文本描述的数字人几何形态。
基于物理的材质扩散生成模块旨在预测与预测几何体和文本提示一致的面部纹理。首先,Dreamface 将预先训练的 LDM 在收集的大规模 UV 材质数据集上微调,得到两个 LDM 扩散模型。然后采用一种联合训练方案,协调两个扩散过程,一个用于直接去噪 UV 纹理贴图,另一个用于监督渲染图像,以确保面部 UV 贴图和渲染图像的正确形成与文本提示一致。为了减少生成时间,还采用了一个粗糙纹理潜在扩散阶段,为细节纹理生成提供先验潜在。同时,为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。例如利用 Prompt Tuning 方法,将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,在 U - Net 去噪器训练期间进行优化,避免不稳定和耗时的手工撰写提示;以及使用非面部区域遮罩,限制 LDM 去噪过程,确保生成的漫反射贴图不含有任何不需要的元素。最后,应用超分辨率模块生成 4K 基于物理的纹理,以进行高质量渲染,为数字人披上一层逼真的 “皮肤”。
动画能力生成模块则让数字人真正 “活” 了起来。与基于 BlendShapes 的传统方法不同,Dreamface 的神经面部动画方法通过预测独特的变形来为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。首先训练一个几何生成器,学习表情的潜在空间,其中解码器被扩展为以中性几何形状为条件,就像让数字人学会各种表情的基本 “动作”。接着,进一步训练表情编码器,从 RGB 图像中提取表情特征,使得数字人能够根据不同的情境和情感做出相应的表情变化。通过使用单目 RGB 图像以中性几何形状为条件,Dreamface 能够生成个性化的动画,让数字人的每一个动作、每一个表情都自然而生动,仿佛它们是具有真实情感和生命力的个体 。