2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

一个提问高下立见?国产AI大模型冲上扣子广场PK

发布日期:2024-06-19 09:22:08 浏览次数: 2987
作者:头号AI玩家

微信搜一搜,关注“头号AI玩家”


以“国产GPTs”出名的扣子,做出了GPT没有的功能。


6月12日,字节跳动旗下的AI应用开发平台“扣子”(Coze国内版)悄悄上线了新功能“模型广场”。



扣子是AI应用开发平台,无论用户是否有编程基础,都可以在扣子上快速搭建基于大模型的各种聊天机器人(AI Bot),并一键发布到飞书、微信等各个社交平台。

新上线的模型广场,可以让两个大语言模型实时PK,一决胜负,帮助用户挑选出最适合自己的大语言模型。

据了解,扣子目前已经接入了包括豆包、通义千问、MiniMax、Moonshot、百川智能、智谱等多个国内大语言模型。换言之,这是国内多家知名大模型厂商与字节的强强联动。


哪款大模型最适合自己的AI应用?创作者们在打造AI Bot时该选哪个模型?自定义主题Bot的魅力在哪?“头号AI玩家”第一时间上手进行了一番实测。


超低门槛搭建Bot,让大模型匿名PK


国内大模型到底哪家更厉害,遇到问题时该选择哪个AI解决,扣子模型广场提供的就是快速测试的方法。

具体来说,模型广场采用了指定Bot对战、随机Bot对战以及纯模型对战模式,任一模式下,系统都会先匹配两款匿名大模型,随后用户进行提问,模型实时生成答案进行PK。

根据模型的回答质量,我们可以投票选出表现较好的模型,孰强孰弱一目了然。

任意模型完成回答后,用户可以参与投票

先从最基础的模型能力评测入手,如果我需要搭建一个“友好语气转换器(阴阳版)”,哪个大语言模型的回复既礼貌但不冒犯?

现在直接让模型“打一架”,就可以评估大模型在面对细分需求时的表现差异。


我们在扣子模型广场点击“纯模型对战”,进入对决页面,两款匿名模型已经在后台准备就绪了。

随后,我输入了需要创建的AI Bot角色设定,并一键发送给两个身份未知的大语言模型,内容如下:

“你是一个能将各种情绪状态演绎得淋漓尽致,令人又爱又恨的阴阳怪气大师,可以通过极其生动且夸张的方式展现出丰富多样的不同网络聊天语气,给用户带来独特的、充满明嘲暗讽的体验......”



两款匿名大模型实时响应提问,其中,最先给出回答的大模型B只花了4.9秒。
任意一个模型回答完后,就可以基于内容质量、回复时间等要素,来判断哪个模型表现更好。

实际测试中,综合响应时长以及内容“阴阳怪气”的程度,我把这一票投给了大模型A。投票完成后,模型广场会显示刚才参与竞赛的两位模型选手,比如被我选中获胜的模型A实际上是豆包。点击展开,还能获得更多模型参数。

投票完成页面

当然,也可以选择重开一轮。比如由于我还想了解其他模型会如何“阴阳怪气”,就点了“重开一轮”,很快,系统重新匹配了两个新模型进行对战。


通过多轮评估对比,我们发现在“友好语气转换器”这一机器人创建需求中,豆包和Moonshot给出的结果不相上下,豆包回答简单毒舌,Moonshot配合表情之后,把“暗讽”拿捏到位。

那么,考虑到我希望聊天机器人在对话时带上emoji,所以会更青睐活泼一点的Moonshot。

需要说明的是,这里的投票完全是依据个人主观喜好,所以与其说哪家模型更强,不如说哪家更适合。

目前,市面上也有较权威的评测,像LMSYS的模型竞技场,也是让全球用户可以自由评测大模型的能力,选出优胜模型。扣子的模型广场也有相同的功能。

对于开发者来说,如何选择更优的底层模型打造AI Bot是十分值得关心的问题。毕竟在大模型行业,基础模型的能力几乎决定着AI Bot能多大程度发挥作用。

但很多人在创建AI Bot时,其实无法看懂复杂的榜单数据,甚至不夸张地说,国产AI大模型各个当过第一。现在,“纯模型”之间可以进行对战,以文本生成的硬实力PK,这样的优势在于方便小白用户自行选择模型。

除此之外,也可以在模型竞技场中选择感兴趣的Bot开启模型对战。和GPTs商店类似,入围模型广场的AI Bot是官方精选推荐的。

比如,我选择了“奇遇旅行家”Bot来制定一个出行计划,同样能将“我要从上海出发到阿勒泰,请帮我找到便宜的机票,并制定一份出行规划”这个问题,一键发给两个模型。

不到15秒的时间,匿名模型先后给出了两个完全不同的方案,对于出行需要Plan B的我来说,的确大大缩短了规划时间。


换言之,对于普通用户而言,同一个问题可以同时投喂给两个大语言模型,短时间内可以获得更多回复,一定程度上可以提高获取信息的效率。此外,也可以在一个平台掌握各大模型的最新能力,扣子实现了模型Bot的聚合。


验证模型再叠技能,AI还能怎么玩


需要说明的是,模型广场评估的只是大模型本身在文本生成等方面的能力,不受编排、工作流等配置的影响和限制。

所以,如果想要打造出一个能力出众的Bot,还需要进一步给AI附加一些额外能力。

比如,让Genmoji Bot调用表情包插件,或是创作完整的工作流,和大语言模型结合完成更多复杂功能。


在扣子Bot商店,有不少网友通过AI Bot实现自己的创意。AI最大的魅力,大概就在于你压根没想到这些东西能这么用。


6月12日,扣子还和Intel联合推出了“Coze AI Factory”主题Bot征集活动,包括图文创作、实用工具、互动创意等不同赛道。

https://www.coze.cn/docs/guides/coze_ai_factory

网友们靠调用插件、增加工作流,调教了形形色色的角色,整了不少花活,比如“单人剧本杀”“本命粽子”“Emoji翻译器”等等。

这些有意思的Bot也会吸引更多开发者上手一试,从中寻找创建灵感。

比如可以在Bot商店选择感兴趣的Bot,查看相应的提示词,甚至在个人空间里复刻一个相似的,替换成更心仪的大语言模型。

我们体验下来也发现,如此一来,零基础就可以开发一款契合自己的AI Bot。借助模型广场,还能在创建AI Bot时选择更偏好的大模型。这样一来,人人都可以灵活地配置生成不同的Bot,还能低成本实现突如其来的创意。


字节AI新王牌,想做大模型风向标?


随着大模型技术不断发展,国内大厂几乎都瞄准了构建AI原生应用平台,类GPTs的产品远不止扣子。此前百度上线了文心一言智能体平台,阿里云布局推出百炼大模型平台。前不久,腾讯一站式智能体制作平台“元器”也公开灰度测试。

不少观点认为,具有专业能力的智能体,能够撬动大模型商业化。但如何在其中脱颖而出,做出差异化竞争是大模型厂商们共同面对的问题。

目前看来,挖掘大模型技术上的潜力,汇聚开发者甚至非开发者,扣子靠模型竞技场已经迈出了第一步。

模型竞技场,意味着字节联动阿里、百川智能和月之暗面等,让用户能够快速基于多种大模型创建应用。扣子的底层也不再局限于自研的豆包大模型,逐渐走向开放,吸引更多开发者。

图片来源:扣子微信公众平台

对于大厂来说,开发者生态就像是“蓄水池”,繁荣的生态和稳固的底层技术向来相辅相成,规模化的开发者聚合效应能进一步提升大模型能力。

继此前推出9个豆包大模型全家桶,打响大模型价格战后,字节正在围绕AI寻找应用落地场景,以触达更多用户。

以扣子、豆包等为基础,字节似乎正尝试搭建起一个能够吸引开发者与用户、覆盖各领域的AI应用生态,进一步对B端业务发起攻势。

火山引擎总裁谭待此前接受采访时表示,应用生态的构建不是一天两天就能形成的,反而是一堆人的群体智慧。扣子必须要构建低代码生态,能够让很多人用低门槛做更多事情,才能形成AI时代的创新。

这或许也在暗示,扣子选择上线模型广场的原因,是鼓励更多大模型进行合作,收集真实的应用场景数据,为优化模型提供参考。

正如很多业内人士提到的,AI的价值应该体现在它如何帮助人们解决问题、提高效率上,而不仅仅是技术层面的“最强”。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅