这周会计划研究LipSync方向,会写一些资料记录过程。本篇并不讲详细使用步骤,只讨论其功能实现。

本篇评测的工具实现方式都相近,插件列表如下:

LipSync Pro【U3D】
EasyTalk【U3D】
Lipsync Tool【美术用】
Face and lips

评测的方向: 1. 嘴型同步 2.面部表情
评测角度: 1. 实现方式 2. 可用性

一般有语音层的 LipSync 工具结构都相似

LipSync工具在流程上都类似 1.导入转码,转换成便于语音识别层使用的格式 2.识别(需要语言与声学模型支持) 3.特定格式的数据导出 4.根据数据源进行口型融合(口型事先映射好了)
EasyTalk语音识别工具
在这一层中EasyTalk并不友好,他在外部实现的音频解析工具并不提供源码,导致我们无法根据项目对插件进行定制

Face and lips不参加本次评测是其非主流应用方式,需要美术通过MikuMikuDance编辑器制作动作等,应用方向请参考【极乐净土】
LipSyncPro插件稳定性有待提高:在进行测试的期间此插件在mac上有代码级别的问题。1.4.1版本代码bug 手动修复后WIN7能跑,1.4.2最新版修复了前版本的bug但是在mac上运行仍旧有其他bug导致不能解析音频。【目前mac版本不能解析音频bug正在查】
Lipsync Tool不参加本次评测的原因有三 1.Demo下载后只有英语语言模型,不提供其他语言下载 2.主要是美术用在maya或3dmax做插件 3.价格高,最便宜5500$.

语音识别层介绍

在LipSyncPro中的CMUSphinx语音识别层

在介绍实现方式之前我们先深入一下语音识别层,原因是此类型插件都使用了语音识别出的数据作为驱动口型的数据源

CMUSphinx 是一个开源组件 作为语音识别层层的核心 ,下文是简介

[CMU Sphinx, also called Sphinx in short, is the general term to describe a group of speech recognition systems developed at Carnegie Mellon University. These include a series of speech recognizers (Sphinx 2 - 4) and an acoustic model trainer (SphinxTrain).

In 2000, the Sphinx group at Carnegie Mellon committed to open source several speech recognizer components, including Sphinx 2 and later Sphinx 3 (in 2001). The speech decoders come with acoustic models and sample applications. The available resources include in addition software for acoustic model training, Language model compilation and a public domain pronunciation dictionary, cmudict.

Sphinx encompasses a number of software systems, described below. —来自维基百科](https://en.wikipedia.org/wiki/CMU_Sphinx)

在CMUSphinx之上使用语音训练创建语言模型

CMUSphinx 使用的语言库是可以自己训练的 Building a language model。工程量比较大,如果没有做好充足准备(资源)不建议自己训练语言库。我们自己训练的库是需要优化的,不是做完就能用,良好的语音模型拥有更高的识别率,在高识别率的前提下我们最终得到的口型会更加准确。下面例举了一些做语言训练需要的资源

1.真人进行训练
训练之前,假设你有充足的数据:

用于单个人的指令应用,至少需要一小时录音,
用于很多人指令应用,需要200个录音人,每人5小时
用于单个人的听写,需要10小时他的录音
用于多个人的听写,需要200个说话人,每人50小时的录音
同时你要有这门语言的语音学知识,以及你有足够的比如一个月的时间,来训练模型

2.使用机器学习
1.您必须为指定的语言收集音频材料。实际上这不是这么复杂的事情。有声书本、电影和播客提供足够的录音构建良好的声学模型。
2.语音学习需要您构建一个框架,用于跟踪错误的发音。包括代不正确的发音和得分。这里可以使用 cmusphinx 的机器学习。

可用性

可借鉴优点

  1. 速度快,基于语音识别可以快速匹配出所有的音素,并且映射相应的口型
  2. 表情多,可以定制非常多的口型与面部表情
  3. 可修改,可以自己手动编辑已经识别完毕的【音频对应的口型配置文件】

缺点

  1. 每种语言需要对应的声学与语言模型
  2. 难深度定制,我们只能定制表层使用,深入到语音识别层面很难。

补充资料 Lipsync Tool

对 Lipsync Tool 这款工具进行一些补充说明。下文是一些技术标准

目前支持导出格式如下,主要在影视方向,这里提到有简单的脚本导出但是不确定实现,他并未支持任何的游戏引擎。目前只是衔接了影视与建模软件。
It exports a simple text format readable from most scripting languages.
3ds max script for creating animations in max from lipsync tool files
MAYA .mov files, melscript (Lipscript) importer
.swf, .as : Macromedia Flash Files

🔗 CMUSphinx介绍
🔗 SOX音频处理库
🔗 Building a language model
🔗【sphinx】中文声学模型训练
🔗 语音识别的基础知识与CMUsphinx介绍
🔗 Lipsync Tool官网 annosoft价格表