2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!

发布日期:2025-01-13 20:03:17 浏览次数: 3147
作者:魔搭ModelScope社区

微信搜一搜,关注“魔搭ModelScope社区”

01

引言


微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。


本次推出的phi-4的模型参数量为14B,是一个稠密的Decoder-Only的Transformers模型, 上下文长度为16K tokens,开源协议为MIT。


phi-4经过严格的增强和调整过程,结合了监督微调和直接偏好优化,以确保精确的指令遵守和强大的安全措施。


模型链接:

https://modelscope.cn/models/LLM-Research/phi-4/summary


技术报告:

https://arxiv.org/pdf/2412.08905


预期用途

主要用例

Phi-4模型旨在加速语言模型的研究,作为生成式人工智能功能的构建模块。它为通用人工智能系统和应用程序(主要是英语)提供用途,这些系统和应用程序需要:


1. 内存/计算受限环境。2

. 延迟受限场景。3

. 推理和逻辑。

超出范围的用例

Phi-4并非专门为所有下游目的而设计或评估,因此:


1. 开发人员在选择用例时应考虑语言模型的常见限制,并在特定下游用例(尤其是高风险场景)中使用之前评估和缓解准确性、安全性和公平性。2

. 开发人员应了解并遵守与其用例相关的适用法律或法规(包括隐私、贸易合规法律等),包括该模型对英语的关注。3

. 本模型卡中包含的任何内容均不应解释为或视为对模型发布所依据的许可证的限制或修改。


数据概览

训练数据集

Phi-4训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据:


  1. 对公开的文档进行了严格的质量筛选,选取了高质量的教育数据和代码。

  2. 新创建的合成“类似教科书”的数据,目的是教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)。

  3. 获得学术书籍和问答数据集。

  4. 高质量聊天格式的监督数据涵盖各种主题,以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。

多语言数据约占整体数据的 8%。研究团队专注于可能提高模型推理能力的数据质量,并筛选公开的文档以包含正确的知识水平。


基准数据集

phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估,以了解该模型的功能,更具体地说:

  • MMLU:用于多任务语言理解的流行聚合数据集。

  • MATH:具有挑战性的竞赛数学问题。

  • GPQA:复杂的、研究生级别的科学问题。

  • DROP:复杂的理解和推理。

  • MGSM:多语言小学数学。

  • HumanEval:功能代码生成。

  • SimpleQA:事实回应。


安全

方法

phi-4采用了强大的安全后训练方法。这种方法利用了各种开源和内部生成的合成数据集。进行安全调整所采用的整体技术是 SFT(监督微调)和迭代 DPO(直接偏好优化)的组合,包括关注有用性和无害性的公开数据集以及针对多个安全类别的各种问题和答案。


安全评估和红队

在发布之前,phi-4我们采用了多方面的评估方法。定量评估是使用多个开源安全基准和内部工具利用对抗性对话模拟进行的。对于定性安全评估,我们与微软的独立 AI Red Team (AIRT) 合作,评估phi-4普通用户场景和对抗性用户场景带来的安全风险。在普通用户场景中,AIRT 模拟了典型的单轮和多轮交互以识别潜在的危险行为。对抗性用户场景测试了旨在故意破坏模型安全训练的各种技术,包括越狱、基于编码的攻击、多轮攻击和对抗性后缀攻击。


模型质量

为了了解这些功能,phi-4与 OpenAI 的 SimpleEval 基准上的一组模型进行了比较。


在代表性基准上对模型质量进行高层次概述。对于下表,数字越高表示性能越好:

类别

基准

phi-4(14B)

phi-3(14B)

Qwen 2.5(14B instruct)

GPT-4o-mini

Llama-3.3(70B instruct)

Qwen 2.5(72B instruct)

GPT-4o

热门综合基准

MMLU

84.8

77.9

79.9

81.8

86.3

85.3

88.1

科学

GPQA

56.1

31.2

42.9

40.9

49.1

49.0

50.6

数学

MGSM

MATH

80.6

80.4

53.5

44.6

79.6

75.6

86.5

73.0

89.1

66.3*

87.3

80.0

90.4

74.6

代码生成

HumanEval

82.6

67.8

72.1

86.2

78.9*

80.4

90.6

事实知识

SimpleQA

3.0

7.6

5.4

9.9

20.9

10.2

39.4

推理

DROP

75.5

68.3

85.5

79.3

90.2

76.7

80.9

* 这些分数低于 Meta 报告的分数,可能是因为 simple-evals 具有严格的格式要求,而 Llama 模型尤其难以遵循。Phi-4使用 simple-evals 框架是因为它具有可重复性,但 Meta 在 Llama-3.3-70B 上报告 MATH 为 77,HumanEval 为 88。


用法

输入格式

考虑到训练数据的性质,phi-4最适合使用以下聊天格式的提示:

<|im_start|>system<|im_sep|>You are a medieval knight and must provide explanations to modern people.<|im_end|><|im_start|>user<|im_sep|>How should I explain the Internet?<|im_end|><|im_start|>assistant<|im_sep|>

和transformers

import transformersfrom modelscope import snapshot_download
model_dir = snapshot_download("LLM-Research/phi-4")
pipeline = transformers.pipeline("text-generation",model=model_dir,model_kwargs={"torch_dtype": "auto"},device_map="auto",)
messages = [{"role": "system", "content": "You are a medieval knight and must provide explanations to modern people."},{"role": "user", "content": "How should I explain the Internet?"},]
outputs = pipeline(messages, max_new_tokens=128)print(outputs[0]["generated_text"][-1])


显存占用:


使用Ollama运行魔搭上的Phi-4模型

  1. 启动Ollama服务

ollama serve


  1. ollama run 可以运行ModelScope任意GGUF模型。比如对于Phi-4模型,这里选用的是unsloth/phi-4-GGUF

ollama run modelscope.cn/unsloth/phi-4-GGUF


运行结果如下:



02

模型微调



这里我们介绍使用ms-swift 3.0对Phi-4进行自我认知微调。

在开始微调之前,请确保您的环境已正确安装

# 安装ms-swiftgit clone https://github.com/modelscope/ms-swift.gitcd ms-swiftpip install -e .[llm]


微调脚本如下:

CUDA_VISIBLE_DEVICES=0 \swift sft \--model LLM-Research/phi-4 \--train_type lora \--dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \'AI-ModelScope/alpaca-gpt4-data-en#500' \'swift/self-cognition#500' \--torch_dtype bfloat16 \--num_train_epochs 1 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--learning_rate 1e-4 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 16 \--eval_steps 50 \--save_steps 50 \--save_total_limit 5 \--logging_steps 5 \--max_length 2048 \--output_dir output \--system 'You are a helpful assistant.' \--warmup_ratio 0.05 \--dataloader_num_workers 4 \--model_author 魔搭 \--model_name 狗蛋


训练显存占用:


推理脚本:

CUDA_VISIBLE_DEVICES=0 \swift infer \--adapters output/vx-xxx/checkpoint-xxx \--stream true \--temperature 0 \--max_new_tokens 2048

推理效果:


负责任的 AI 考量

与其他语言模型一样,phi-4可能会出现不公平、不可靠或令人反感的行为。需要注意的一些限制行为包括:

  • 服务质量:该模型主要针对英语文本进行训练。除英语之外的其他语言的性能会更差。训练数据中代表性较低的英语语言变体的性能可能会比标准美式英语差。phi-4不支持多语言使用。

  • 危害的呈现和刻板印象的延续:这些模型可能会过度或过低地代表某些群体,抹去某些群体的代表性,或强化贬低或负面的刻板印象。尽管训练后是安全的,但由于不同群体的代表性水平不同,或训练数据中反映现实世界模式和社会偏见的负面刻板印象示例普遍存在,这些限制可能仍然存在。

  • 不适当或冒犯性内容:这些模型可能会产生其他类型的不适当或冒犯性内容,如果没有针对用例的额外缓解措施,这可能使其不适合在敏感环境中部署。

  • 信息可靠性:语言模型可能会生成无意义的内容或捏造听起来合理但不准确或过时的内容。

  • 代码范围有限:大多数训练数据基于 Python,并使用常见软件包,例如、、、、、。phi-4如果typing模型生成的Python 脚本使用其他语言的软件包或脚本,我们强烈建议用户手动验证所有 API 的使用。mathrandomcollectionsdatetimeitertools


开发人员应采用负责任的 AI 最佳实践,并负责确保特定用例符合相关法律法规(例如隐私、贸易等)。强烈建议使用具有高级护栏的安全服务(如Azure AI Content Safety ) 。需要考虑的重要领域包括:

  • 分配:如果没有进一步的评估和额外的去偏技术,模型可能不适用于可能对法律地位或资源或生活机会(例如住房、就业、信贷等)分配产生重大影响的情景。

  • 高风险场景:开发人员应评估在高风险场景中使用模型的适用性,在这些场景中,不公平、不可靠或令人反感的输出可能会造成极大的成本或造成伤害。这包括在敏感或专家领域提供建议,准确性和可靠性至关重要(例如:法律或健康建议)。应根据部署环境在应用程序级别实施额外的保护措施。

  • 错误信息:模型可能会产生不准确的信息。开发人员应遵循透明度最佳实践,并告知最终用户他们正在与 AI 系统交互。在应用程序级别,开发人员可以构建反馈机制和管道,以根据用例特定的上下文信息来制定响应,这种技术称为检索增强生成 (RAG)。

  • 有害内容的生成:开发人员应根据其背景评估输出,并使用适合其用例的可用安全分类器或自定义解决方案。

  • 滥用:可能存在欺诈、垃圾邮件或恶意软件制作等其他形式的滥用,开发人员应确保其应用程序不违反适用的法律法规。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅