我要投稿

效果秒杀同类模型，HuggingFace发布手机上能跑的SmolLM

发布日期：2024-07-24 12:07:06 浏览次数： 2753

Hugging Face最近推出了一套精巧的紧凑型语言模型——SmolLM，它们在性能上已经超越了微软、Meta和阿里巴巴的千问系列等竞争对手。这些新晋模型不仅为个人设备带来了尖端的AI功能，并不耗费过多的设备性能，更能保护用户隐私。

SmolLM系列包括三个成员，它们分别拥有1.35亿、3.6亿和17亿参数量，它们被设计来满足不同层次的计算需求。尽管这些模型体积轻巧，但在常识推理和世界知识基准测试中却展现出了卓越的性能。

特别值得一提的是，即使是体积最小的SmolLM-135M，在训练中使用的token数量较少的情况下，其性能也超过了Meta的MobileLM-125M。而SmolLM-360M则宣称，在所有低于5亿参数的模型中，它的性能是最牛的，包括Meta和阿里巴巴的千问系列产品。至于旗舰模型SmolLM-1.7B，则在多个基准测试中战胜了微软的Phi-1.5、Meta的MobileLM-1.5B以及千问Qwen2-1.5B，确立了其在高端AI模型中的领先地位。

SmolLM的发布也有望对AI的可及性及用户隐私产生重大影响。这些模型完全可以在手机及笔记本电脑等个人设备上运行，因此消除了云计算需求，同时缓解了成本与隐私问题。希望有更多类似模型推出哦！！！

下面我们将介绍系列模型的一些细节。

各方发言

Hugging Face公司SmolLM项目首席机器学习工程师Ben Allal在采访时解释道：“通过SmolLM的现实性能，我们证明数据质量是决定模型水平的关键因素。我们开发出的创新方法能够精心策划高质量数据，将网络来源与合成数据相结合，从而建立起性能最佳小模型。”

Hugging Face研究团队负责人Leandro von Werra在采访时还特别强调了SmolLM的实际意义。“这些紧凑型模型为开发人员和最终用户打开了一个充满可能性的世界。从个性化自动补全功能到解析复杂的用户请求，SmolLM无需昂贵的GPU或者云基础设施即可支撑起自定义AI应用程序。无论是降低AI的访问门槛、还是为每个人提供隐私保护，SmolLM的出现都代表着迈向未来的重要一步。”

随着SmolLM模型家族、数据集以及训练代码的正式亮相，全球AI社区及开发人员现在已经可以探索、改进并构建这种创新的语言模型方法。正如Ben Allal在采访中做出的总结：“希望更多人参与进来，帮助SmolLM更上一层楼！”

佩服HF的开放精神，方法全开源，点赞。

数据集介绍

这些模型的出色表现，离不开精心策划的训练数据，也是本文最大的创新点。

Smollm Corpus 数据集:

Cosmopedia v2: 由Mixtral 生成的包含38B tokens的合成教材和故事内容的
Python-Edu: Stack 上的教育性Python示例(4B tokens)
FineWeb-Edu (deduplicated): FineWeb 上的精选教育性网络内容(220B tokens)

训练数据量：

SmolLM模型有三个不同尺寸，它们分别在不同量级的混合数据上训练得到：

135M and 360M models, 在Smollm-Corpus数据集中选择了600B tokens的训练数据；
1.7B model, 在Smollm-Corpus数据集中选择了1T的训练数据。

数据分布图：

指令微调数据集：StarCoder2-Self-OSS-Instruct

dpo数据集：

集中135M和1.7B模型使用的是HelpSteer数据集；
360M的模型，使用的是argilla/dpo-mix-7k;

都只训练了一个epoch。

表现介绍

在大多数任务以及平均得分上，在相同尺寸的模型上取得了state-of-the-art的成绩，但是并没有在所有测试集上都最好。

模型结构

参数配置

自注意力的是GQA分组查询注意力，模型具体配置如下:

显存占用

下面是模型占用显存的小，官方已经给出了量化版的onnx权重：

支持长度：这几款模型支持的长度都是2048个token(通过微调后，可以支持更长)

Tokenizer：在Smollm Corpus上训练得到，词表大小为49152.

跑起来

官方给的推理代码(有些小问题需要自己改一下)

# pip install transformersfrom transformers import AutoModelForCausalLM, AutoTokenizercheckpoint = "HuggingFaceTB/SmolLM-1.7B-Instruct"
device = "cuda" # for GPU usage or "cpu" for CPU usagetokenizer = AutoTokenizer.from_pretrained(checkpoint)# for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
messages = [{"role": "user", "content": "List the steps to bake a chocolate cake from scratch."}]input_text=tokenizer.apply_chat_template(messages, tokenize=False)print(input_text)inputs = tokenizer.encode(input_text, return_tensors="pt").to("cuda")outputs = model.generate(inputs, max_new_tokens=100, temperature=0.6, top_p=0.92, do_sample=True)print(tokenizer.decode(outputs[0]))

测试小例子

chat("hello")# The statement is false. 
chat("1+1=")# The equation 1+1=1 is true, but the equation 1+1=2 is false. This is because the statement "1+1=1" is a tautology, meaning that it is always true regardless of the values of its variables. However, the statement "1+1=2" is a contradiction, meaning that it is false if and only if both 1 and 1 are true. Since 1 is true, the statement "1+1

官方例子

chat("List the steps to bake a chocolate cake from scratch.")# resultTo bake a chocolate cake from scratch, follow these steps:
1. Gather ingredients: - 2 cups all-purpose flour - 1 cup unsweetened cocoa powder - 2 teaspoons baking soda - 1 teaspoon salt - 2 cups granulated sugar - 2 large eggs - 1 cup whole milk - 1/2 cup vegetable oil - 2 teaspoons vanilla extract
2. Preheat the oven to 350°F (175°C).
3. Combine dry ingredients: - In a large bowl, whisk together flour, cocoa powder, baking soda, and salt.
4. Mix wet ingredients: - In another bowl, beat sugar, eggs, milk, oil, and vanilla until well combined.
5. Combine wet and dry mixtures: - Gradually add the wet mixture to the dry ingredients, stirring until just combined.
6. Pour batter into a greased 9-inch round cake pan.
7. Bake for 30-35 minutes, or until a toothpick inserted into the center comes out clean.
8. Allow the cake to cool in the pan for 10 minutes, then transfer it to a wire rack to cool completely.
Note: The original answer provided a list of ingredients and a step-by-step process, but it lacked a clear explanation of the steps and the reasoning behind them. The revised answer provides a more detailed and coherent explanation of the baking process.

这个模型实测起来，除了官方例子，表现并不像说的那么好，感觉像个傻子一样，难道是我的姿势不对吗。真像说的那样Bad Baseline Is All You Need吗。希望大家都卷起来，这个开源项目数据处理部分有很大的参考意义，感兴趣的可以关注一下：

# 博客地址https://huggingface.co/blog/smollm# 无法访问的可以访问下面的地址https://hf-mirror.com/blog/smollm

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

通俗讲解大模型短期记忆 vs 长期记忆

2026-02-04

谁动了我的电脑？谁应该抱怨？

2026-02-03

从 CLI 到桌面：Codex 把 coding agent 变成“任务指挥台”

2026-02-03

谷歌重大更新：国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean