微信扫码
添加专属顾问
Qwen2[1]是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。
以Qwen2作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。
使用LoRA方法训练,1.5B模型对显存要求不高,10GB左右就可以跑。
在本文中,我们会使用 Qwen2-1.5b-Instruct 模型在 中文NER[2] 数据集上做指令微调训练,同时使用SwanLab[3]监控训练过程、评估模型效果。
• 代码:完整代码直接看本文第5节 或 Github[4]、Jupyter Notebook[5]
• 实验日志过程:Qwen2-1.5B-NER-Fintune - SwanLab[6]
• 模型:Modelscope
• 数据集:chinese_ner_sft
• SwanLab:https://swanlab.cn
大模型指令微调(Instruction Tuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。
指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。
在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的NLP任务。所以这类任务的应用场景覆盖了以往NLP模型的场景,甚至很多团队拿它来标注互联网数据。
命名实体识别 (NER) 是一种NLP技术,主要用于识别和分类文本中提到的重要信息(关键词)。这些实体可以是人名、地名、机构名、日期、时间、货币值等等。NER 的目标是将文本中的非结构化信息转换为结构化信息,以便计算机能够更容易地理解和处理。
NER 也是一项非常实用的技术,包括在互联网数据标注、搜索引擎、推荐系统、知识图谱、医疗保健等诸多领域有广泛应用。
本案例基于Python>=3.8,请在您的计算机上安装好Python,并且有一张英伟达显卡(显存要求并不高,大概10GB左右就可以跑)。
我们需要安装以下这几个Python库,在这之前,请确保你的环境内已安装好了pytorch以及CUDA:
swanlab
modelscope
transformers
datasets
peft
accelerate
pandas一键安装命令:
pip install swanlab modelscope transformers datasets peft pandas accelerate
本案例测试于modelscope==1.14.0、transformers==4.41.2、datasets==2.18.0、peft==0.11.1、accelerate==0.30.1、swanlab==0.3.11
本案例使用的是HuggingFace上的chinese_ner_sft数据集,该数据集主要被用于训练命名实体识别模型。
chinese_ner_sft由不同来源、不同类型的几十万条数据组成,应该是我见过收录最齐全的中文NER数据集。
这次训练我们不需要用到它的全部数据,只取其中的CCFBDCI数据集(中文命名实体识别算法鲁棒性评测数据集)进行训练,该数据集包含LOC(地点)、GPE(地理)、ORG(组织)和PER(人名)四种实体类型标注,每条数据的例子如下:
{
'text':'今天亚太经合组织第十二届部长级会议在这里开幕,中国外交部部长唐家璇、外经贸部部长石广生出席了会议。',
'entities':[
{
'start_idx':23,
'end_idx':25,
'entity_text':'中国',
'entity_label':'GPE',
'entity_names':['地缘政治实体','政治实体','地理实体','社会实体']},
{
'start_idx':25,
'end_idx':28,
'entity_text':'外交部',
'entity_label':'ORG',
'entity_names':['组织','团体','机构']
},
{
'start_idx':30,
'end_idx':33,
'entity_text':'唐家璇',
'entity_label':'PER',
'entity_names':['人名','姓名']
},
...
],
'data_source':'CCFBDCI'
}其中text是输入的文本,entities是文本抽取出的实体。我们的目标是希望微调后的大模型能够根据由text组成的提示词,预测出一个json格式的实体信息:
输入:今天亚太经合组织第十二届部长级会议在这里开幕,中国外交部部长唐家璇、外经贸部部长石广生出席了会议。
大模型输出:{'entity_text':'中国', 'entity_label':'组织'}{'entity_text':'唐家璇', 'entity_label':'人名'}...现在我们将数据集下载到本地目录。下载方式是前往chinese_ner_sft - huggingface下载ccfbdci.jsonl到项目根目录下即可:
这里我们使用modelscope下载Qwen2-1.5B-Instruct模型(modelscope在国内,所以直接用下面的代码自动下载即可,不用担心速度和稳定性问题),然后把它加载到Transformers中进行训练:
from modelscope import snapshot_download,AutoTokenizer
from transformers importAutoModelForCausalLM,TrainingArguments,Trainer,DataCollatorForSeq2Seq
model_id ='qwen/Qwen2-1.5B-Instruct'
model_dir ='./qwen/Qwen2-1___5B-Instruct'
# 在modelscope上下载Qwen模型到本地目录下
model_dir = snapshot_download(model_id, cache_dir='./', revision='master')
# Transformers加载模型权重
tokenizer =AutoTokenizer.from_pretrained(model_dir, use_fast=False, trust_remote_code=True)
model =AutoModelForCausalLM.from_pretrained(model_dir, device_map='auto', torch_dtype=torch.bfloat16)
model.enable_input_require_grads() # 开启梯度检查点时,要执行该方法我们使用SwanLab来监控整个训练过程,并评估最终的模型效果。
这里直接使用SwanLab和Transformers的集成来实现:
from swanlab.integration.huggingface import SwanLabCallback
swanlab_callback = SwanLabCallback(...)
trainer = Trainer(
...
callbacks=[swanlab_callback],
)如果你是第一次使用SwanLab,那么还需要去https://swanlab.cn上注册一个账号,在用户设置页面复制你的API Key,然后在训练开始时粘贴进去即可:
开始训练时的目录结构:
|--- train.py
|--- ccfbdci.jsonltrain.py:
import json
import pandas as pd
import torch
from datasets importDataset
from modelscope import snapshot_download,AutoTokenizer
from swanlab.integration.huggingface importSwanLabCallback
from peft importLoraConfig,TaskType, get_peft_model
from transformers importAutoModelForCausalLM,TrainingArguments,Trainer,DataCollatorForSeq2Seq
import os
import swanlab
def dataset_jsonl_transfer(origin_path, new_path):
'''
将原始数据集转换为大模型微调所需数据格式的新数据集
'''
messages =[]
# 读取旧的JSONL文件
with open(origin_path,'r')as file:
for line in file:
# 解析每一行的json数据
data = json.loads(line)
input_text = data['text']
entities = data['entities']
match_names =['地点','人名','地理实体','组织']
entity_sentence =''
for entity in entities:
entity_json = dict(entity)
entity_text = entity_json['entity_text']
entity_names = entity_json['entity_names']
for name in entity_names:
if name in match_names:
entity_label = name
break
entity_sentence += f'''{{'entity_text': '{entity_text}', 'entity_label': '{entity_label}'}}'''
if entity_sentence =='':
entity_sentence ='没有找到任何实体'
message ={
'instruction':'''你是一个文本实体识别领域的专家,你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {'entity_text': '南京', 'entity_label': '地理实体'} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出'没有找到任何实体'. ''',
'input': f'文本:{input_text}',
'output': entity_sentence,
}
messages.append(message)
# 保存重构后的JSONL文件
with open(new_path,'w', encoding='utf-8')as file:
for message in messages:
file.write(json.dumps(message, ensure_ascii=False)+'\n')
def process_func(example):
'''
将数据集进行预处理
'''
MAX_LENGTH =384
input_ids, attention_mask, labels =[],[],[]
system_prompt ='''你是一个文本实体识别领域的专家,你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如 {'entity_text': '南京', 'entity_label': '地理实体'} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出'没有找到任何实体'.'''
instruction = tokenizer(
f'<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{example['input']}<|im_end|>\n<|im_start|>assistant\n',
add_special_tokens=False,
)
response = tokenizer(f'{example['output']}', add_special_tokens=False)
input_ids = instruction['input_ids']+ response['input_ids']+[tokenizer.pad_token_id]
attention_mask =(
instruction['attention_mask']+ response['attention_mask']+[1]
)
labels =[-100]* len(instruction['input_ids'])+ response['input_ids']+[tokenizer.pad_token_id]
if len(input_ids)> MAX_LENGTH:# 做一个截断
input_ids = input_ids[:MAX_LENGTH]
attention_mask = attention_mask[:MAX_LENGTH]
labels = labels[:MAX_LENGTH]
return{'input_ids': input_ids,'attention_mask': attention_mask,'labels': labels}
def predict(messages, model, tokenizer):
device ='cuda'
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors='pt').to(device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=512
)
generated_ids =[
output_ids[len(input_ids):]for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
return response
model_id ='qwen/Qwen2-1.5B-Instruct'
model_dir ='./qwen/Qwen2-1___5B-Instruct'
# 在modelscope上下载Qwen模型到本地目录下
model_dir = snapshot_download(model_id, cache_dir='./', revision='master')
# Transformers加载模型权重
tokenizer =AutoTokenizer.from_pretrained(model_dir, use_fast=False, trust_remote_code=True)
model =AutoModelForCausalLM.from_pretrained(model_dir, device_map='auto', torch_dtype=torch.bfloat16)
model.enable_input_require_grads()# 开启梯度检查点时,要执行该方法
# 加载、处理数据集和测试集
train_dataset_path ='ccfbdci.jsonl'
train_jsonl_new_path ='ccf_train.jsonl'
ifnot os.path.exists(train_jsonl_new_path):
dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)
# 得到训练集
total_df = pd.read_json(train_jsonl_new_path, lines=True)
train_df = total_df[int(len(total_df)*0.1):]
train_ds =Dataset.from_pandas(train_df)
train_dataset = train_ds.map(process_func, remove_columns=train_ds.column_names)
config =LoraConfig(
task_type=TaskType.CAUSAL_LM,
target_modules=['q_proj','k_proj','v_proj','o_proj','gate_proj','up_proj','down_proj'],
inference_mode=False,# 训练模式
r=8,# Lora 秩
lora_alpha=32,# Lora alaph,具体作用参见 Lora 原理
lora_dropout=0.1,# Dropout 比例
)
model = get_peft_model(model, config)
args =TrainingArguments(
output_dir='./output/Qwen2-NER',
per_device_train_batch_size=4,
per_device_eval_batch_size=4,
gradient_accumulation_steps=4,
logging_steps=10,
num_train_epochs=2,
save_steps=100,
learning_rate=1e-4,
save_on_each_node=True,
gradient_checkpointing=True,
report_to='none',
)
swanlab_callback =SwanLabCallback(
project='Qwen2-NER-fintune',
experiment_name='Qwen2-1.5B-Instruct',
description='使用通义千问Qwen2-1.5B-Instruct模型在NER数据集上微调,实现关键实体识别任务。',
config={
'model': model_id,
'model_dir': model_dir,
'dataset':'qgyd2021/chinese_ner_sft',
},
)
trainer =Trainer(
model=model,
args=args,
train_dataset=train_dataset,
data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
callbacks=[swanlab_callback],
)
trainer.train()
# 用测试集的随机20条,测试模型
# 得到测试集
test_df = total_df[:int(len(total_df)*0.1)].sample(n=20)
test_text_list =[]
for index, row in test_df.iterrows():
instruction = row['instruction']
input_value = row['input']
messages =[
{'role':'system','content': f'{instruction}'},
{'role':'user','content': f'{input_value}'}
]
response = predict(messages, model, tokenizer)
messages.append({'role':'assistant','content': f'{response}'})
result_text = f'{messages[0]}\n\n{messages[1]}\n\n{messages[2]}'
test_text_list.append(swanlab.Text(result_text, caption=response))
swanlab.log({'Prediction': test_text_list})
swanlab.finish()看到下面的进度条即代表训练开始:
在SwanLab上查看最终的训练结果:
可以看到在2个epoch之后,微调后的qwen2的loss降低到了不错的水平——当然对于大模型来说,真正的效果评估还得看主观效果。
可以看到在一些测试样例上,微调后的qwen2能够给出准确的实体抽取结果:
至此,你已经完成了qwen2指令微调的训练!
训好的模型默认被保存在./output/Qwen2-NER文件夹下。
推理模型的代码如下:
import torch
from transformers importAutoModelForCausalLM,AutoTokenizer
from peft importPeftModel
def predict(messages, model, tokenizer):
device ='cuda'
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors='pt').to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)
generated_ids =[output_ids[len(input_ids):]for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
return response
# 加载原下载路径的tokenizer和model
tokenizer =AutoTokenizer.from_pretrained('./qwen/Qwen2-1___5B-Instruct/', use_fast=False, trust_remote_code=True)
model =AutoModelForCausalLM.from_pretrained('./qwen/Qwen2-1___5B-Instruct/', device_map='auto', torch_dtype=torch.bfloat16)
# 加载训练好的Lora模型,将下面的[checkpoint-XXX]替换为实际的checkpoint文件名名称
model =PeftModel.from_pretrained(model, model_id='./output/Qwen2-NER/checkpoint-1700')
input_text ='西安电子科技大学的陈志明爱上了隔壁西北工业大学苏春红,他们约定好毕业后去中国的苏州定居。'
test_texts ={
'instruction':'''你是一个文本实体识别领域的专家,你需要从给定的句子中提取 地点; 人名; 地理实体; 组织 实体. 以 json 格式输出, 如; {'entity_text': '南京', 'entity_label': '地理实体'} 注意: 1. 输出的每一行都必须是正确的 json 字符串. 2. 找不到任何实体时, 输出'没有找到任何实体'. ''',
'input': f'文本:{input_text}'
}
instruction = test_texts['instruction']
input_value = test_texts['input']
messages =[
{'role':'system','content': f'{instruction}'},
{'role':'user','content': f'{input_value}'}
]
response = predict(messages, model, tokenizer)
print(response)输出结果为:
{'entity_text':'西安电子科技大学','entity_label':'组织'}
{'entity_text':'陈志明','entity_label':'人名'}
{'entity_text':'西北工业大学','entity_label':'组织'}
{'entity_text':'苏春红','entity_label':'人名'}
{'entity_text':'中国','entity_label':'地理实体'}
{'entity_text':'苏州','entity_label':'地理实体'}53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-19
从 BERT 标注到 Agent Skill:短文本标签体系的四次“工业革命”
2026-05-14
多轮 Agent 场景下,滴滴的 EAGLE-3 训推加速实践
2026-05-06
谁说 Mac 只能写代码?Google 官宣:M 芯片本地微调 Gemma 4 时代开启!
2026-04-20
用 Unsloth 微调 Embedding 模型,让你的 RAG 检索不再答非所问
2026-04-15
ComfyUI v0.19.0 更新:大量新节点、新模型、新修复与性能优化全面落地,工作流与训练能力再升级
2026-04-13
Agent 持续学习落地路径:先做 Traces,再做 Context,最后才微调模型 | Jinqiu Select
2026-03-23
养死四只龙虾的小白有感
2026-03-22
Mistral Forge 的真正意义:企业AI从“租用”走向“拥有”
2026-04-15
2026-04-13
2026-04-20
2026-05-06
2026-05-14
2026-06-19
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。