©机器之心Pro 2024-08-15 (8)赞 (0)回应
官方 网站建设:企业、政府、学校网站建设、开发、运营,3D网页开发(广州13423640808,深圳13922266979,微信同号) *在线咨询
官方 全能网队:让企业内低性价比的网站运营/设计师下岗!每月最低仅需375元统一包起网站运营+编辑+设计+推广+服务器维护工作 *在线咨询
官方 丰业合作社:广东省级示范社,30多年原产地批发供应荔枝、圣女果、番石榴、火龙果等 #13922255007 *在线咨询 *填写收购意向
官方 场地租赁:廉江良垌水果收购场地/冷库/办公室租用 了解详情 #13542015105 *填写意向
自 2024 年 GPT-4o 出现以来,业内各公司纷纷投入巨大的资源进行 TTS 大模型的研发。近几个月内,中文语音合成大模型如雨后春笋般涌现,如 chattts、seedtts、cosyvoice 等。
虽然当前语音合成大模型在中文普通话上的效果已与真人几乎无异,但面对中国纷繁复杂的方言,TTS 大模型却鲜有涉猎,训练一个统一的中文各方言语音合成大模型是一项极具挑战的任务。
当前,语音合成大模型技术在普通话领域已经取得了显著进展,但在方言领域的发展却十分缓慢。中国拥有数十种主要方言,每一种方言都有独特的语音特征和语法结构,这使得训练一个覆盖各种方言的 TTS 大模型变得异常复杂。
现有的 TTS 大模型大多专注于普通话,无法满足多样化的语音合成需求。此外,方言语料库的稀缺以及高质量标注数据的匮乏,也进一步增加了技术难度。
为了解决上述难题,巨人网络 AI Lab 团队中的算法专家和语言学家共同努力,基于中国方言体系,构建了涵盖 20 种方言、超过 20 万小时的普通话和方言数据集。通过这一庞大的数据集,我们训练出了第一个支持多种普通话方言混说的 TTS 大模型 ——Bailing-TTS。Bailing-TTS 不仅能够生成高质量的普通话语音,还能够生成包括河南话、上海话、粤语等在内的多种方言语音。
粤人/粤机构/粤村镇