AI爆发时代,数字人也出现各种不同方案,如下:
ER-NeRF
ER-NeRF是一个口播数字人,整体架构包含大语言回答模型、语音合成、生成视频流,背景替换等功能。可以应用直播行业等
EasyWav2Lip
EasyWav2Lip是一种用于嘴唇同步的技术,可以从音频中生成逼真的嘴唇动画。
目前可以通过TTS实现声音克隆,再通过视频唇形匹配,让照片说话生成视频等。
PS:
ASR - 自动语音识别(Automatic Speech Recognition):将语音信号转换成文本的技术。
LLM - 大型语言模型(Large Language Model):像 GPT 这样的大型神经网络,用于自然语言处理任务。
TTS - 文本到语音(Text-to-Speech):将文本转换为语音的技术。