谈LLM生成文本检测攻防的未来

发布日期：2025-03-29 06:40:38 浏览次数： 2368

作者：孔某人的低维认知

微信搜一搜，关注“孔某人的低维认知”

本文不是一个技术文，并不讨论目前LLM文本检测攻防的具体技术方案。

0、引子

最近尝试了一下维普的AIGC检测能力（也就是学校毕业论文用的那个），发现我目前使用的一个感觉生成文本质量很高的方案，都会被大面积的判定为AI生成。当然这说明它确实做得不错。

但是在我看来我生成的文稿其实质量已经很高，也没有太明显的中低档模型的AI痕迹。很可能仅仅是因为它的措辞风格更趋向于学术界的“平均”措辞风格，而导致容易被识别。

这让我开始思考这个问题。

当然本文仅讨论文本方面，图像、语音和视频方面是另外的问题。

1、 LLM生成的文稿质量与AI痕迹

在2025年之前，LLM生成的内容还具有一些容易分辨的特征，所谓的AI味。比如R1模型，它特别喜欢用量子力学等等一些这样的高大上名词。在我看来，这里的很多问题都是用的模型能力较差，或者说LLM的post training对齐阶段有一些问题导致的。

但如果你真的很认真的用LLM来生成文本的话，它的效果其实可以做到很好。我目前生成质量最高的方案是先使用o1 Pro去做内容构思，然后使用GPT-4.5去做一轮撰写，然后再用GPT-4.5去做一轮review和去除冗余。这样生成的方案，其实我觉得已经很好了。当然你如果想要故意去分辨的话，还是能看出一点点特征，或者说至少他跟我的行文习惯是不同的。但对于传达信息来讲，已经非常不错了。我最近转载了一些播客全文文稿，前面的概要部分就是靠这种方式生成。当然实际我在生成过程当中，对于主要提取哪些部分是做了人工指示的，它并不是一个自动的流程，但确实文字的生成都是依靠这个workflow的。大家有兴趣的话可以去对比分辨一下。

另外我转载的播客全文文稿其实也是靠LLM workflow来生成的，最终撰写文本的模型是Claude 3.5 Sonnet。使用它主要是因为兼顾成本和质量，用GPT-4.5会更贴近于人一些，但是对于我来讲调用成本更高，所以目前还在使用这样的方案。

例如：Google Labs VP Josh Woodward访谈中文全文

但是通过GPT-4.5生成的文本仍然可以被识别，这就让我很意外。想来想去，我认为这还是“平均”的措辞方式的特征。这目前确实是LLM生成内容的一个几乎必然会有的表现，根据prompt和任务的不同只有多少的区别，很难完全消除。

2、我对检测LLM生成文本的看法

我个人认为无论是什么样的文本，无论是人撰写的，还是人口述的，无论是基于LLM直出的，还是基于复杂的workflow生成的，评价它们的方式应该是看文本的质量本身。现在大家已经很少会犯一些严重的语法错误，产生一些完全读不通的文本。所以现在文本内容质量主要是它所表达的内容或者信息的好坏。

但目前的LLM生成文本方式在我看来检测的并不是这一点，而是去检测它是否是一个“平均”的措辞习惯这一点，因为这个特征更容易被识别，虽然这对于人来识别已经开始变得有点难。

想要通过这种检测，其实就需要向其中加入更多的个人特征，以及人类措辞当中的一些随机性。在我看来，它并没有明显的提升文本的价值，更多的是加入了一种不同的口味。这就好像是自动化生产的白糖和手工作坊做的白糖的差别。人工生产的白糖和文本可以因为它的生产成本更高而收取更高的价格，只要有人愿意为它支付溢价。但我并不认同，要从制度上去打压低成本生产的文本的价格。虽然文本都是由LLM输出的，但到底要选择输出哪些内容、有哪些指示、对于生成的多个结果的选择、这些都可能是由人工来完成的。这些人工工作的价值在这样的检测方案下无法被体现。而我觉得这些对于文本质量的影响是非常大的，区分文本的好坏应该看的是这些文本内容的实际质量，而不是看它的措辞是否含有人类的一些个性化的特征。

我不知道，目前在LLM生成文本攻防方面到底哪边更占优。但目前确实我没有自动化的方式来突破维普的识别方式。我也不知道同样的方式是否已经应用在了其他内容平台。

假设目前防守方（检测方）是占优的，那么未来随着LLM的更加广泛的使用，更多的地方会因为这个特征的易获得性而把它作为鉴别内容质量好坏的一个主要特征，这在我看来会是走入歧途。从这个意义上来讲，我认为维持攻防势均力敌是一件重要的事情。只有这样才能迫使整个社会转向到识别内容本身的质量，而不是措辞习惯上。

如果我们能够有办法更好地建模每个人的措辞习惯和随机性，并且能够将它加入到文本当中的话。我认为在未来的2~3年，随着LLM在内容生产领域更加充分的应用，这方面的市场价值会很大，而且会随着整个AIGC市场的变大而自然变大。

3、技术上的一些判断

假设有一个团队在开始做生成文本检测的进攻方，也就是修饰文本以通过对面的LLM生成识别检测，那么我预计他们肯定是攻防同时做。我很难想象一个团队只会进攻，但防守很弱。

当然现在有一些比较trick的方式去对抗，但我觉得这些方式都不长久。长久的方式还是要理解人类生成的文本本身距离“平均”措辞方式的差异到底是什么。

当然站在平台方的角度上来讲，他们的攻防团队很可能是防守比较强，但进攻稍弱。在未来他们也可能会通过收购一些这样的进攻方公司来增强自己的能力。

目前我对这个个性化的差异的判断是：一部分是具体的每个人的一些个性化习惯性措辞和表达方式，另外一部分是在措辞和构思当中具有一些随机性。我认为其中习惯性的措辞和表达方式在这个差异当中占据主要部分，以及这会随着这个人年龄的增加而有所漂变。

4、文本与非文本，及其他数字资产

我认为文本和其他模态在应用上是显著不同的，虚构一个不存在的看似真实的录像、不存在的照片、不存在的音频，会对人产生很大的影响，这是由人性决定的。

但对于文字来说，其实并不包含这么大的信息量，人对于文字的轻信也没有那么大。一个人无论是自己写了一段文字，还是从其他方式得到了一段文字，只要他看了这个内容，并且认可其中的内容，将它发布的时候，就应该视同他也同意了这个内容，他愿意为这个内容去做一定程度的背书。这与这个文字是否符合他个人的写作措辞习惯并没有太直接的绑定关系。

对于非文本模态，我赞成在非常接近于真实的内容当中添加AI生成标记，在明显不是真实照片或录像的内容当中，也可以不添加。

但对于文字这样的信息，或者是像单纯的数据表格，结构化内容等等，我认为应该是署名负责制：署名发布该内容视同认同该观点。我并不倾向于因为一个文字内容是真人写的，但是他写的很垃圾，就对它予以好评；也并不倾向于一个内容，仅仅因为它是由AI生成的，就对它予以差评。

这方面的讨论可以进一步拓展到其他的数字资产，例如网页、可执行的程序、3D模型。

难道我们要限制一个网页、是一个程序、或一个App，仅仅由于它是由AI coding生成的，就限制它不能盈利？

难道要求一个3D模型只要不是由人一步一步捏出来的，就要把它的价值通过法律或政策手段限定得很低？

我并不认同这样的逻辑，我也并不期待一个这样的世界。

5、个性化的价值？

世界当中数字资产的价值应该是由它的使用价值决定的，或者说供需关系决定的，特别是在未来数字资产的供给越来越充足的时代。会有一些人会更倾向于去购买纯手工制作的产品，但我认为并不能强迫所有人都使用或为手工制作的产品去支付更多的溢价。大部分的人使用一个足够好的产品就可以了，不需要限定它是通过什么方式来生产的。

现在攻防的矛头聚集到了识别这种平均的措辞风格上，这给个人的一些个性化的特征带来了一些额外的溢价。虽然我并不认同这件事情，但这确实是一个有意思的事情。

人性本身是从众的，但现在恰恰我们被要求要展现出自己个性化的一面、与人不同的一面，然后才能说明我们交付的结果不是由AI生成的。就像目前高校毕业生所面对的情况一样。这个事情有点搞笑，但可能是我们不得不面对的现实。至少在攻防双方势均力敌之前是这样的。