突破“恐怖谷”的数字人“SUSU”，中国领先的AI技术成果

SUSU数字人

中国AI创业公司SentiPulse与中国人民大学的AI研究团队于4月8日（当地时间）联合发布了基于整合技术框架“SentiAvatar”的虚拟数字人“SUSU”，该技术能够让数字人在对话时展现自然流畅的动作。

在与数字人或3D虚拟形象交流时，常会感受到“嘴巴在动但表情僵硬，虽然有手势动作却与对话内容无关且不自然”，这正是数字人陷入“恐怖谷”现象的表现。该问题源于数字人动作生成通常是将通用动作拼接而成，缺乏与语义和情感的紧密结合。

然而，要实现人与数字人之间的信任建立、机器人与人类的协作，或是在游戏中更真实地表现角色，数字人必须具备自然、一致且富有情感的表现力。基于此，研究团队开发了此次的模型。

SentiAvatar架构

开发SentiAvatar面临三大挑战：

现有数据集多为英语语料，且缺少与动作同步的表情数据，尤其缺乏高质量的中文对话场景全身动作数据。
模型对简单动作描述如“挥手”理解良好，但对复杂动作如“无奈地耸肩”或“点头表示同意”等复合动作理解能力急剧下降。
生成的动作往往速度单一，且与语音的强弱和节奏完全不同步，显得机械且不自然。

这些问题的根源在于“语言意义”和“语言节奏”发生在不同时间尺度上，前者基于句子层面，后者基于帧级别，难以用单一模型同时兼顾。例如，现有的EMAGE和TalkShow等手势生成模型以语音为起点，缺乏对句子语义的深度理解；而T2M-GPT和MoMask等以文本为起点，则忽略了语音节奏的处理，未能实现时序上的精准匹配。

为解决上述问题，团队首先利用光学动作捕捉技术，针对同一角色采集了同步语音、动作注释文本、全身动作及表情等数据，构建了包含21,000个片段、37小时多模态对话的“SuSuInterActs数据集”。

随后，基于超过20万条动作序列（约676小时）对动作基础模型进行了预训练。基础模型采用Qwen-0.5B作为骨干网络，扩展了词汇表，包含2,048个动作标记和语音标记。为保持语言一致性，所有文本描述均翻译为中文。

在动作生成方面，SentiAvatar采用了“先规划再填充”的双通道并行架构，分别处理身体动作和面部表情。通过这一设计，生成的动作在自然度上显著优于其他主流AI模型。

SUSU动作示例

目前，SentiAvatar框架、SuSuInterActs数据集及预训练模型已在GitHub开源，面向全球对3D动作生成感兴趣的研究机构和开发者，推动3D数字人技术及其应用领域的发展。

突破“恐怖谷”的数字人“SUSU”，中国领先的AI技术成果

标签

评论

相关阅读

AMD提出AI时代新视角：你可能需要一台专属的“鱼缸电脑”

SpaceX如何以600亿美元收购提案取代20亿美元融资计划

Patreon CEO称AI公司“合理使用”论调是谬论，强调创作者应获得报酬