喜马拉雅成果再被ICASSP收录新AI语音技术备受推崇
中新网上海新闻2月17日电(晓东于俊)日前,由国际音频顶级会议ICASSP(国际音频、语音与信号处理会议)联合阿里巴巴发起的ICASSP2022多通道多方会议转录挑战赛(M2MeT)落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学的合作成果在说话人日志赛道获得第三名,相关论文被ICASSP2022收录,并受邀于今年5月在新加坡举行的线上线下会议中展示。
这是喜马拉雅的第二项技术研究成果得到ICASSP2022的认可。此前,其有关跨语言语音合成创新技术的论文已被ICASSP2022收录。
ICASSP是由IEEE(电气电子工程师学会)主办的在信号处理及其应用方面的顶级会议,在国际上享有盛誉。今年是ICASSP的第47届会议,会议主题为以人为本的信号处理。M2MeT挑战赛是ICASSP2022信号处理大挑战(GrandChallenge)之一,包括说话人日志和多说话人语音识别两个赛道。喜马拉雅和中国科学技术大学合作,在说话人日志赛道以4。05的日志错误率(DER)名列第三位。第一、第二名分别由昆山杜克大学的李明教授团队(2。98)和腾讯香港中文大学团队(3。98)获得。
说话人日志技术,也称说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来解决谁在什么时候说话的问题。如在语音聊天室场景中,可以告诉开会者当前谁在说话。该技术也在其它相关的语音处理技术中扮演着重要角色,如会议转写的语音识别,或者为语音分离、VAD等其它语音技术提供关键的先验信息。
会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等因素。此次的M2MeT挑战赛聚焦中文会议数据。
为了提高日志准确率,喜马拉雅和中国科学技术大学合作研发的系统,在语音的预处理上首先使用麦克阵列技术对信号进行降噪、降混响,使得信号相对纯净,再使用基于深度学习的声纹模型和谱聚类方法,对多人远场数据进行初步处理,并使用多通道标签融合技术对不同通道的结果进行融合,进一步提升准确率。
喜马拉雅在AI语音技术领域潜心钻研多年,旗下的智能语音实验室专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,说话人日志技术成果便来自于这一部门。
除了说话人日志,喜马拉雅的TTS(语音合成)技术也处于行业前列,并被广泛运用于评书、新闻、小说等多种内容的制作中。已有新京报、环球时报、潇湘晨报、时代周报、海外网、刺猬公社等众多主流媒体入驻喜马拉雅,借助该技术加速制作新闻类音频节目,让听众有了更多的渠道听到更权威的新闻。
2021年,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS技术框架,完美复现了单田芳的声音,并用单田芳的AI合成音上线了超过80张的单田芳声音重现专辑。其中,《毛氏三兄弟》和历史类作品的声音完播率远超过普通人声作品,为未来出版物大量有声化提供了新的解决方案。喜马拉雅此前被ICASSP2022S收录的自研跨语言语音合成技术,或能以单先生的声音来播讲英文内容。(完)