微信扫码
添加专属顾问
我要投稿
钉钉A1重新定义语音AI:不仅是一个工具,更是一个开放平台,让语音数据真正流动起来。核心内容: 1. 语音AI的三大核心价值:信息效率、数据资产化、千亿级市场 2. A1的硬件+平台双轮模式:30+场景模板实现智能纪要生成 3. 开放生态想象空间:从销售线索挖掘到医疗问诊的行业重塑
AI训练营7期,1月下旬开班,欢迎咨询
人类进化这么几十万,会写字、看字的时间也不过数千年,语音、视觉依旧是我们最高频的沟通方式。
所以,光靠文字的AI产品是远远不够的,各个公司对于AI在语音侧“接口”的争夺也从未停止:
于是,前两个月钉钉在十周年发布会上推出了首款AI语音产品,钉钉 A1,只不过当时我并没拿到实体硬件,估摸着当时还是一批原型机,然后这次发布会就成功拿到手上了!
我们先看看官方对其的定义:会议助手、销售助手、客服助手...
A1的技术实现是比较简单的:借助钉钉最新发布的DingTalk_AI(原来貌似叫AI听记),将录下的语音实时转写成文字,并通过大模型进行总结提炼:
大家可以理解为硬件是一个文字输入设备,DingTalk_AI是一个功能展示模块,现阶段不论是会议、面试、销售拜访,设备都能自动整理重点,生成纪要和分析报告。
例如,HR借助A1记录面试后,可在钉钉查看自动提炼的候选人履历、情绪状态、沟通能力分析等,辅助快速筛选人才...
针对客户交流,A1能提取客户信息、分类和满意度指标,帮助客服人员了解服务质量...
为什么可以搞这些“需求百变”、“杂乱无章”的需求,因为A1内置了30多种场景化AI纪要模板,覆盖学习笔记、日常记录、会议纪要、面试记录等多种场景,用户只需选择相应模板即可生成结构清晰的总结。
但我们前面说了:A1是一套硬件输入,平台整理的系统,逻辑上钉钉可以把这个模块开放出来,各个公司可以自己在上面玩出花来!比如:
等等千奇百怪的需求全部可以被实现,意思是各位现在在A1上面看到的所有功能仅仅是个打样罢了,后续什么基于此的应用都可以有,一起说A1是一个AI语言产品,倒不如说A1是一个AI语音开放平台。
按照这个架势,A1的硬件设备可能会越来越便宜,甚至几十元都可以搞定,必定他已经是钉钉生态的重要组成部分了。
如前所述,A1给我的感觉其实可以与钉钉无关,只不过钉钉生态下的A1具有不一样的价值,比如:
我在使用A1的过程中第一时间想到的是之前微软收购的一款产品Nuance(2022那年,97亿美元):
国内与他类似的是左手医生的听诊机器人:
Nuance在AI的加持下,在问诊环节其实具有很大的想象空间,能够帮到很多医生、降低误诊率,也可以减少医生的很多文书类工作压力。
据微软发布的数据,Nuance已帮助600多家医疗机构的医生,每次问诊节省约5分钟的时间,超过70%的临床医生反馈因使用该AI而减轻了职业倦怠感,这个产品整体的口碑是很好的;
只不过Nuance虽然估值很高,但出于数据安全问题,国内是没看到的;而国内有很多类似的设备,块头大、成本高,都不利于批量投放,所以这两年在医疗场景,我看到的语言设备是比较少的。
于是乎,今天一看到A1居然就想起了之前的业务场景,逻辑上是可以做到平替的,只不过这不仅是需要在应用层做改造,也对硬件在嘈杂环境下的多人识别能力提出了很高的要求。
现在看来钉钉依旧在办公场景发力,他们不关注医疗,从各种宣传口径上都是一样,A1定位于“随身办公AI”,以轻量硬件结合云端大模型,为职场多角色赋能。
其实这也是正确的,因为不同领域的知识在做语义识别的时候是有门槛的,比如Nuance在医疗领域的优势源于其多年的语料积累和算法优化,能精准识别医学术语和医生口述习惯,支持个性化的模板和术语库;
A1要做到这一点,不仅需要很多底层基建支撑,也需要先在办公场景打样,其次需要将这类接口释放到各个公司。
比较恐怖的是,貌似这一切阿里还真能做!
阿里生态之所以能支撑A1从“功能硬件”跃升为“开放平台”,关键在于其完整闭环能力,这是大多数单一硬件厂商或纯软件服务商难以复制的。
阿里拥有从底层算力(含光芯片、平头哥半导体)、云计算基础设施(阿里云),到中间层算法(达摩院多模态大模型、语音识别引擎),再到上层应用(钉钉、天猫精灵等)的完整技术栈。
这意味着A1的语音处理可以深度优化!
以最近很火的医疗AI产品为例:蚂蚁阿福,这东西月活用户已经超1500万,每日处理健康提问超500万次了。虽然这是2C的应用,但未必不能发生延伸,毕竟用户健康数据在上面。
总而言之,这东西想象空间很大就是了,但竞争态势也不容乐观。
除了钉钉A1与Nuance,语音AI的主流形态大致分成两条线:办公效率型与消费助理型。
在国内,科大讯飞听见/智能办公本代表会议生产力路线:以高精度转写为底座,叠加说话人分离、纪要/待办/思维导图等结构化产出,并强化私有化部署与加密能力,解决政企、涉密场景的“能用与敢用”。
大家一定要注意,讯飞在这个板块其实很强,单说这里的叠加说话人分离就要搞多久
只不过这个领域巨头太多了,包括钉钉、腾讯会议、飞书......
在消费端,家庭物联网入口路线很清晰:就是结合语音、AI、家电构建“家庭管家”生态,这个需求属于聊胜于无但又一定会有的部分,有钱人的玩具......
最后说一嘴,语音类AI产品乃至开放平台想象空间很大,对于基座模型也是其多模态能力的延伸。
但是,这类产品要真正站稳,还要跨过几道硬门槛:嘈杂环境的多人分离与识别精度、企业数据安全与合规、以及行业术语与工作流的深度适配。
办公场景是个不错的起点,钉钉A1做出来不错的选择,下一步能否把能力开放给生态伙伴、让更多公司“在它之上玩出花来”,才是决定上限的关键。
如果说过去语音产品拼的是识别率,那么接下来拼的将是:谁能把语音变成生产力,谁能把生产力变成平台能力,AI语音的故事,才刚开始...
点击上方卡片关注叶小钗公众号,查看下方二维码,添加我个人微信:
《LangChain、 dify、 n8n、 Coze:四大AI框架怎么选?》
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-05
2025-11-09
2025-10-13
2025-10-27
2025-10-24
2025-12-01
2025-12-09
2025-11-17
2025-12-08
2025-12-01