AI爆发时代，数字人也出现各种不同方案，如下：

ER-NeRF

ER-NeRF是一个口播数字人，整体架构包含大语言回答模型、语音合成、生成视频流，背景替换等功能。可以应用直播行业等

EasyWav2Lip

EasyWav2Lip是一种用于嘴唇同步的技术，可以从音频中生成逼真的嘴唇动画。

目前可以通过TTS实现声音克隆，再通过视频唇形匹配，让照片说话生成视频等。

PS：

ASR - 自动语音识别（Automatic Speech Recognition）：将语音信号转换成文本的技术。

LLM - 大型语言模型（Large Language Model）：像 GPT 这样的大型神经网络，用于自然语言处理任务。

TTS - 文本到语音（Text-to-Speech）：将文本转换为语音的技术。