我要投稿

语音识别大赛五连冠！开会就能用！

发布日期：2024-09-10 06:48:11 浏览次数： 2720

作者：科大讯飞

微信搜一搜，关注“科大讯飞”

提问：5个人一起开会，随时打断、快速切换、边走边说，会议记录怎么对齐？

虽说有AI记录，但在复杂的会议场景中，到底怎样实现高精准的语音识别和说话人分离？

这个问题，现在已经可以解决了。

近日，科大讯飞再获CHiME大赛冠军，在“会议室场景远场多人语音识别”任务中，突破了人数估计、语音重叠、远场混响、人员移动及对话风格随意等难关。

把技术评测搬到会议室

CHiME（Computational Hearing in Multisource Environments）大赛组委会当地时间9月6日宣布：

科大讯飞与中科大语音及语言信息处理国家工程研究中心（NERCSLIP）、国家智能语音创新中心联合团队，在参与的全新Task 2——“会议室场景远场多人语音识别”（NOTSOFAR）任务中获得全部两个赛道的第一名，连续五届获得冠军。

此次比赛任务面向会议室场景，难度再升级

：

会议场景覆盖了30个不同的会议室，每个会议室尺寸、布局、建筑材料和声学特性不同，会议主题也不相同；
识别人数从固定的4人增加到动态的4到8人；
多人同时讲话导致了语音重叠、打断，以及说话人快速切换。其中，测试集语音重叠比例平均达到了39.5%；
需要处理不同的声学场景，比如说话人起身在白板附近说话、边走边说，声音的距离和音量都会有变化；
还要处理不同类型的干扰噪声，比如关门声、电话铃声、空调噪声等。

科大讯飞联合团队在单通道赛道上语音识别错误率（tcpWER）降至22.2%，领先第二名30.0%，相比基线系统降低了46.4%；在多通道赛道上语音识别错误率（tcpWER）降低至10.8%，领先第二名46.4%，相比基线系统降低了61.8%；且在细分的7个声学场景下的表现都优于其他团队，体现了所提交系统在多种噪声、会议特性环境中的鲁棒性。

多通道赛道tcpWER结果和排名

单通道赛道tcpWER结果和排名

单通道赛道7个细分声学场景下的tcpWER结果，值越低成绩越好

实际开会效果怎么样？

此次挑战赛涉及的语音识别相关技术，已在讯飞听见、讯飞智能办公本、讯飞智能录音笔等软硬件产品中用上了，针对会议室场景下的会议转写、发言记录等，相比过去效果提升了

。

以本次CHiME比赛任务中，科大讯飞获奖团队提出的技术方案为例，我们来看下技术如何解决实际开会拾音问题的

先解决噪音下人声分离的问题

本次讯飞获奖团队，提出了“基于重叠声检测和语音分离的多说话人迭代聚类角色分离算法（Speaker Clustering Based on Overlap Detection and Speech Separation）”。

该方案能够在说话人重叠的部分中，将每个说话人声音独立分离出来，还可以修正音色相似或分离音频畸变导致的说话人数错估、角色错分等情况。

接着，解决空间层面上收音和识别问题

开会发言到激情处难免起立走动，说话人走动会让声音捕捉增加难度，还有音量大小不一、背景噪音等干扰。

对此，讯飞获奖团队的“长短时空间滤波（Long-Short Spatial Filter）”方案，针对会议场景特点，在长时语音段上对每个说话人建模，有效避免某个说话人有效语音片段过少导致的估计偏差，还可以有效捕捉移动说话人变化的空间信息。

同时，这个方法还能有效解决会议远场语音识别中存在的背景噪声、语音重叠、音量过低、说话人走动等难点问题。

再针对会议场景提升识别的准确性

哪怕解决了说话人声分离、空间收音问题，也还有五花八门的难题，比如，不同人说话习惯不同，如何适应发言人的说话习惯，让识别结果更准确？

讯飞获奖团队的“自适应声学与语言模型方案（Adaptive Acoustic and Language Model Method）”，可以有效捕捉不同说话人的语音特征和应对各种环境噪声，结合上下文信息，通过对话历史和场景关键词进行动态调整，实时优化语言模型的生成策略。

这使得模型能够理解当前对话的主题和参与者的说话习惯，从而生成更合适的识别结果。

值得一提的是，本次任务中，联合团队在大模型基础上，针对复杂场景引入WavLM等增强特征表达，融合多专家混合模型（MoE）强化了大模型场景的信息解耦。大模型的发展，不仅显著提升了语音识别的准确率，也带来了更多可能。

有了这些技术，开会听得更清楚也不是难事了。

下次开会，不妨试试这些工具——

讯飞听见智能会议系统实现了安全、快速、高效、准确的语音识别和转写，在国内外各类型会议、办公、教学培训、大会演讲等发挥着作用，已累计服务超过500万间会议室。
讯飞智能办公本的核心功能亮点便是会议场景下的多人语音精准识别，不久前新发布的智能办公本Air2采用四麦阵列，并且优化了降噪算法、消除手写噪声，同时结合最新的语义转折点识别算法让说话人识别达到真正的好用。
讯飞智能录音笔也在各类商务会议、大型峰会等场景助力高效信息记录，实现了区分讲话人、语义智能分段、语气词过滤等，录音转文字识别准确率持续提升。

前段时间，星火极速超拟人交互也正式全民开放体验，更快响应、更懂情绪、更加灵活、更加百变的语音交互，欢迎大家体验。