火山语音TTS技术实力获国检中心认证 MOS评分高达4.64

人工智能1年前发布 Cam2023

日前，火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心（以下简称“AI国检中心”）颁发的语音合成增强级检验检测证书，在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测，产品的技术支持团队-火山语音团队提供了丰富的音库，经评测其音色MOS评分最高可达4.64分，处行业领先水平。

作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构，AI 国检中心一直致力于推动智能语音产业的健康发展。本次获得AI国检中心的权威认证，也充分表明了火山语音的语音合成技术能力已达到行业领先水平。

感受火山语音合成的效果：https://lf3-speech.bytetos.com/obj/speech-tts-external/20221025-155948.mp4

更多音色体验：https://www.volcengine.com/product/tts

长期以来，火山语音面向字节跳动各大业务线以及火山引擎ToB行业与创新场景，提供行业领先的AI语音技术能力以及卓越的全栈语音产品解决方案。目前团队的语音识别和语音合成覆盖了多种语言和方言，涵盖音视频、有声阅读、语音交互、游戏、广告等多种应用场景，为抖音、剪映、飞书、番茄小说、Pico等核心业务提供了领先的语音能力。

据了解，本次参评的火山引擎语音合成产品为火山语音团队自主研发，使用了业内领先的生成式神经网络技术，主要由前端文本分析、声学模型、声码器三大模块构成，具体介绍如下：

前端文本分析：主要负责可懂度，比如文本正则化（例如将数字转成年份读、号码读等）、字音转换（例如中文注音，尤其是解决多音字问题）以及分词和韵律预测等。目前火山语音团队依托多任务模型及神经网络正则化，可做到同时支持12种主流小语种，效果显著。
声学模型：主要负责语言学特征到声学特征的建模。数据显示，火山语音TTS的后端准确率可达到99.90%。与此同时，模型还能支持多情感多风格的精细化控制、不同音色之间的风格互相迁移、以及仅用单一语种的训练数据实现多语种合成效果。
声码器模块：主要负责声学特征到音频信号的建模。如今火山语音团队自研了基于对抗神经网络建模的声码器，其准确率可达99.95%，依托于轻量化的模型设计及工程优化，云端实时率可达百倍以上。

火山引擎语音合成产品听感真实自然、演绎生动、风格多样，同时细粒度还原了真人韵律，实现了笑声等多种副语言现象，给人带来沉浸式的听感体验。近期火山语音团队发布的超自然对话语音合成技术既是如此，相较传统TTS将语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统完美复现，而且只需常规音库1/4数据。此外之前风靡网络的“音色复刻技术”，也出自火山语音团队之手。 不同于传统语音合成技术对于数据的高门槛要求，火山语音音色复刻技术对数据量的需求仅为传统方法的0.3%，普通人在相对安静的开放环境录制2分钟以上即可达到音色空间建模的标准，生成专属音色的AI模型，便捷又高效。

目前火山语音将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业，已覆盖汽车、金融、有声阅读、视频配音等众多应用场景，并助力如合众汽车、追书神器等多家行业头部企业实现AI 语音能力的应用与拓展，未来火山语音将不断探索前沿科技与业务场景的高效结合，持续为用户体验和业务增长注入创新势能，以实现更大价值。