Chatbot Arena的偏见与透明性困境：AI评测体系的反思

发布日期：2024-09-10 06:51:08 浏览次数： 3138

作者：檬查查

微信搜一搜，关注“檬查查”

在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:

“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…

当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…”

前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑，再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下：

Chatbot Arena背景介绍

来自LMSYS的Chatbot Arena（聊天机器人竞技场）是一个众包大模型评估平台，具体工作原理如下：

它允许网上的任何人向两个随机选择的匿名AI模型提出问题并得到回答；
用户可以为他们觉得更好的答案投票，也可以宣布平局或表示”两者都不满意”；
投票后，参与比较的模型的名称才会被展示出来；

官方在3月发表了一篇论文，其中写道：这个流程产生了一个典型用户可能会向任何生成模型提出的”多样化问题数组”，”有了这些数据，我们采用了一套强大的统计技术[…]，以尽可能可靠和高效地估计模型之间的排名。”

由于业内都对于传统的大模型评测系统不满意，所以Chatbot Arena推出后就受到了欢迎[1]，甚至不久前Musk也转发了xAI在排行榜上的好成绩截图。

注1：一定意义上说，Chatbot Arena和之前访谈中提到的“观察模型发布几周后用户在Twitter上的反馈”挺类似，因为都是更看重普通用户的反馈而不是传统的实验室评测。

但这么一套依靠“普通人”评测模型结果来给大模型们做排行是否靠谱呢？

Chatbot Arena的局限性：透明度缺失

3月份，LMSYS发布了一个名为LMSYS-Chat-1M的数据集，包含用户与Chatbot Arena上25个模型之间的一百万次对话。这个数据集本应为研究提供重要资源，但自发布以来，他们就没有更新过这个数据集。来自非营利组织Allen Institute for AI的研究科学家Yuchen Lin指出：”这种评估方法存在不可重复性的问题，这在科学研究中是一个重要的缺陷。此外，LMSYS发布的有限数据使得深入研究这些AI模型的局限性变得极具挑战性。” [2]

注2：当然这里能理解如果公开得过多，可能带来的一个担心是大模型公司会利用这些数据来去做专项打榜优化？

此外，论文中提到，LMSYS使用“高效采样算法”让模型相互对抗，“以加速排名收敛并保持统计有效性”。LMSYS在更新Chatbot Arena排名前，会为每个模型收集大约8,000张投票，这一阈值通常在几天内达到。

然而，这种方法的透明度依然有限，尤其是在具体的评估流程和数据处理上。Lin进一步指出，平台的评估过程在很大程度上依赖于后处理来为每个查询贴上标签，然后用这些标签开发特定任务的评级。这种评估方式缺乏系统性和严谨性，使得仅依赖这些有限数据来评估复杂的推理问题非常具有挑战性。

Chatbot Arena的局限性：偏见

Lin指出，LMSYS的投票机制存在明显的偏见问题。现有的投票方法没有充分考虑到用户识别模型“幻觉”的能力，以及他们对答案风格的偏好差异。例如，一些用户可能偏爱更长且带有Markdown风格的答案，而另一些用户则更喜欢简洁的回答。这种差异导致两个用户可能对同一对答案给出相反的评价，而这两个评价可能都是对的，这从根本上质疑了这种评估方法的可靠性。

直到最近，LMSYS才开始尝试在Chatbot Arena中控制模型回答的“风格”和“内容”。然而，Lin指出：“收集到的人类偏好数据并未考虑这些细微的偏见，平台也没有区分‘A显著好于B’和‘A仅略好于B’。尽管后处理可以缓解部分偏见，但原始的人类偏好数据仍然存在噪声。”

更大的偏见问题源自于Chatbot Arena的用户群体构成。由于这个基准测试主要通过AI和科技行业圈子的口碑传播而流行，因此平台吸引的用户群体并不具有代表性。Lin指出，LMSYS-Chat-1M数据集中最热门的问题多与编程、AI工具、软件bug修复和应用设计相关，这些话题并非普通非技术用户会提出的问题，因此“测试数据的分布可能无法准确反映真实人类用户的需求。”

伦敦玛丽女王大学的AI与游戏设计研究员Mike Cook也指出，由于Chatbot Arena的用户是自愿参与的，他们本身对测试模型感兴趣，因此可能不太愿意对模型进行严格测试或逼近其性能极限。Cook补充道：“总的来说，这不是一个好的研究方法。评估者只是提出问题，然后对哪个模型‘更好’进行投票，但LMSYS并没有明确定义‘更好’的标准。表现出色的模型可能会让人误以为它更人性化、更准确或更值得信赖，但实际上并非如此。”

值得指出的是，LMSYS正在尝试通过自动化系统——MT-Bench和Arena-Hard-Auto——来为了应对这些偏见。这些系统通过使用大模型来对其他模型的响应质量进行排名。然而，尽管LMSYS声称这些模型“很好地匹配了受控和众包的人类偏好”，但这个问题依然远未得到彻底解决。

未来的大模型评估体系需要更加公开透明的数据以及更加多元化的用户群体，才能为AI模型的真正能力提供更为准确的评估。