通用场景语音合成数据集推荐

4年前 (2022) 程序员胖胖胖虎阿

557 0 0

语音合成，通常又称文语转换（Text To Speech，TTS），是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。传统语音合成传统的语音合成系统通常包含前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息。对中文合成系统来说，前端模块一般包含文本正则化（Text Normalization，简称TN）、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。前端技术的背后需要大量的TN标注、多音字标注、韵律标注等基础数据作为支撑，帮助前端技术输出准确的结果。后端技术的背后需专业发音人录制的高质量音库，为了应对多种场景，需要音色多样、语种多样的大量音库。个性化语音合成个性化语音合成，通常指使用少量并且可能低质量的目标说话人语音，使用迁移学习等方法，训练一个能够合成目标说话人语音的语音合成模型。通常做法是基于大量不同发音人训练一个通用语音合成模型，然后使用少量目标说话人语音进行fine-tune。个性化语音合成的应用日趋成熟，百度地图支持用户仅需录制9句话,便能生成一套完整的个人语音包,并在地图全场景进行使用。
通用场景语音合成数据集推荐
个性化语音合成技术的背后需要多发音人平均模型库作为重要的数据支撑。数据堂面向通用场景的语音合成数据分为三类：单发音人合成库由单个发音人，在专业录音棚内录制的音库。124小时中文女声通用合成库温柔亲切的年青女性录制，语料涵盖日常口语、有声读物、新闻、广告、客服、电影解说，文字标注的字准确率不低于99.9%，韵律标注的句准确率不低于98%。
13.3小时中文女声情感合成库温柔亲切的年青女性录制，六种情感文本，语料音素覆盖均衡，专业语音学家参与标注，文字标注的字准确率不低于99.9%，音素标注的句准确率不低于99%，韵律标注的句准确率不低于98%。
6.78小时中文女声模仿童声合成库活泼甜美的成人女性模仿儿童录制，语料覆盖K12练习题、阅读绘本、教辅内容、问候语、导读内容，文字标注的字准确率不低于99%。
19.46小时美国英语女声合成库温柔亲切的年青女性录制，语料涵盖通用陈述句、通用疑问句等类别，标注了文字、词性、音素边界、4级重音、4级韵律。
1520小时美国英语男声合成库年轻积极的成人男性录制，语料涵盖通用陈述句、通用疑问句等类别，文字标注的字准确率不低于99.9%，韵律标注的句准确率不低于98%。
610小时日语女声合成库活泼甜美的年轻女性录制，语料覆盖新闻、口语，文字标注的字准确率不低于99%。
710小时韩语女声合成库活泼甜美的年轻女性录制，语料覆盖新闻、口语，文字标注的字准确率不低于99%。多发音人平均模型库由多个发音人，在专业录音棚内录制的音库。1100人中文通用平均音色合成库涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别，语种涵盖中文、英文、中英混读，发音人男女各50人，涵盖不同年龄段（成人70人、儿童20人、老人10人），每人录制600到700个句子。标注了文字、音素、4级韵律、音素边界。
250人中文三风格平均音色合成库每人录制客服类、播音类、故事类三种风格的数据，语料音素覆盖均衡，发音人男女各25人，每人录制600个句子。专业语音学家参与标注，句准确率不低于99%。
前端文本1199,652句TN数据涵盖小说、文章、新闻等类别，将句子中包含的特定的特殊符号及阿拉伯数字标注为汉字写法，共计199,652条句子、454,638条标注。2319,977条汉语多音字语料数据涵盖新闻、口语等类别，包含266个多音字的603个字音，共计319,977条句子。3200,955条中文文本韵律标注语料数据文本来自新闻和日常聊天，进行了4级韵律标注。
通用场景语音合成数据集推荐
作为全球领先的人工智能数据服务商，数据堂丰富的样音资源、突出的技术优势和数据处理经验，支持按语言、音色、年龄、性别个性化定制的采集服务。同时还支持音频切分、音素边界切分（切分精度0.01秒）、音字标注、韵律标注、词性标注、音准校对、声韵标注、乐谱制作等数据定制服务，全面满足多样化语音合成需求。使合成声音更有感情，使人工智能呈现更为真实的电脑语音，使人工智能语音助手在声音互动中更有亲和力。