QwQ 32B vs. DeepSeek R1 自测 ,目前DeepSeek R1官网版最佳平替

发布日期：2025-03-13 07:31:31 浏览次数： 4426

作者：Joyce Birkins

微信搜一搜，关注“Joyce Birkins”

这篇文章我是用英文写的原文, 中文是机翻的,因此读起来有些太板正了。

在DeepSeek R1 70B本地版和官网版测试: 思考深度、内容结构、语言风格、搜索能力有出入我主要用这两个问题分别测试了DeepSeek R1的官方网站版本和本地70B版本。

Marc Andreessen最近的一次AI采访是什么？主要内容是什么？
撰写一篇长文，深入分析两种观点：“美国芯片出口禁令有利于美国AI的发展”和“美国芯片出口禁令将阻碍美国AI的发展”。

众所周知，推理模型主要在一些有限领域（如数学、科学和编程）中通过可验证奖励进行训练。而作为一名博主，我主要关注文本生成测试，例如搜索或分析并解释各种主题。在QwQ 32B中，我也用中文发送了这两个问题。

结论是，对于这两个问题，QwQ 32B的表现与DeepSeek R1官方网站版本相当。然而，QwQ 32B的参数显著减少，因此其生成速度更快，且不会造成无法忍受的延迟。

对于第一个问题，QwQ 32B提供了清晰且逻辑结构良好的回答，与DeepSeek R1官方网站相似。它们都生成了长篇幅、结构化的句子，而DeepSeek R1 70B仅生成了几段简短的回答。

至于美国芯片出口问题，DeepSeek R1官方版本和QwQ 32B都提出了第三种路径，并对这两种观点存在的原因进行了全面分析，显示了更深层次和更专业的思考。

Comparison

为了比较QwQ 32B和DeepSeek R1官方网站版本的推理过程，我要求他们优化标题并改善一个中英混合的YouTube vlog脚本结构。我提供了主要结构、旁白、场景和标题，因此他们的任务只是优化标题并增强视频结构。

以下是他们的回答：最明显的区别在于DeepSeek的推理过程更长，并且对vlog脚本结构进行了更清晰的分析,毕竟它有671B参数，而QwQ只有32B。但最终的回应结果来看，QwQ 32B反而提供了更多的文本,而DeepSeek的风格太简洁精准了

整体上,它们都生成了长篇且结构良好的回答。

针对YouTube Vlog脚本问题的详细推理对比：

回答风格：DeepSeek R1提供了更为克制、冷静且精确的回答，类似于Claude，更加贴近用户的指示。而QwQ 32B则呈现了更活泼、更有创意且轻松的回答，类似于ChatGPT系列，显得更加随意。

从对比他们生成的vlog标题可以清楚地看出这一点：

DeepSeek R1的标题："Vexed, Conflicted Senses in Anticipation of the Coming Spring | A Visual Diary of Winter’s Last Breath"

QwQ 32B的标题："Spring is Coming BUT Winter Won’t Let Go! My Chaotic Vlog Journey"

原始标题："Vexed, Conflicted Senses in Anticipation of the Coming Spring"

关注点：DeepSeek R1详细分析了整体结构，见下图左边实心绿色方框，而QwQ 32B则集中在结论部分，下图右边虚线绿色方框标注。在虚线框总结部分DeepSeek R1结合了镜头类型和音效，专注增强vlog的视觉和听觉方面,更专业。相比之下，QwQ 32B重点考虑SEO相关元素，如标题、标签、关键词和描述。

共享推理过程：尽管在内容重点和语言风格上存在这些差异，但两个模型遵循相同的推理过程。下图我用标记的方框,画线的句子都能看出来。包括 "first," "look at the script," and "SEO title,"部分,能看出结构是一样的

详细最终回答对比：

DeepSeek R1和QwQ 32B在保持相同总体结构的同时表现出截然不同的风格差异。DeepSeek R1在旁白风格上更简洁精致，而QwQ 32B则采用了更具情感和生活化的语气。例如，DeepSeek R1提供了一条简洁却富有内省意味的台词："I replant, reorganize, rewrite… but nothing feels new. Just rearranged dust." 而QwQ 32B则呈现出更具动态性和沉浸感的叙述："I’ve been prepping for this. Repotting plants, adding fertilizer… anything to jumpstart spring’s energy. But…"

在推理阶段，DeepSeek R1深入探讨了结构分析，而在最终回答阶段，QwQ 32B生成了更多文字，并生动描绘了更多场景。一个明显的例子是scene 2——DeepSeek R1以单一旁白呈现，与其他场景长度保持一致，而QwQ 32B将其扩展为三个不同部分，每个部分都有自己的旁白，使场景更具表现力和层次感。此外，DeepSeek R1的简洁性导致整体场景较少，仅留下scene 4，而QwQ 32B包含了场景6，从而提供了更广泛的叙事范围。

尽管存在这些风格和分析上的差异，其回答的基本结构仍然相同。两者遵循相同的顺序，涵盖场景1到4、结尾场景和关键增强。分歧在于具体的分析方法、语言风格、表情符号、关键词和专业术语的使用。最终，虽然DeepSeek R1优先考虑清晰度和精确性，QwQ 32B倾向于创造力和参与感，但两者都保持了相同的核心信息和框架。