微信扫码
添加专属顾问
我要投稿
from transformers import pipeline# 创建一个文本生成的 Pipelinegenerator = pipeline("text-generation", model="gpt-2")# 生成文本result = generator("Hello, I am an AI model", max_length=50, num_return_sequences=3)print(result)
from transformers import pipeline# 创建一个填充掩码的 Pipelinefill_mask = pipeline("fill-mask", model="bert-base-chinese")# 执行中文补全result = fill_mask("今天是一个[MASK]的日子")print(result)
from transformers import AutoTokenizer, AutoModel# 加载 BERT-Base-Chinese 的 Tokenizer 和 Modeltokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")model = AutoModel.from_pretrained("bert-base-chinese")
# 编码文本inputs = tokenizer("你好,长沙!", return_tensors="pt")print(inputs)# 编码多段文本texts = ["你好", "长沙"]inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")print(inputs)
# 添加新 Tokennew_tokens = ["新词汇"]tokenizer.add_tokens(new_tokens)
# 添加特殊 Tokenspecial_tokens_dict = {'additional_special_tokens': ["[NEW_TOKEN]"]}tokenizer.add_special_tokens(special_tokens_dict)# 保存 Tokenizer 和 Modeltokenizer.save_pretrained("./models/new-bert-base-chinese")model.save_pretrained("./models/new-bert-base-chinese")保存模型时,会在指定路径下生成以下文件:
config.json:模型配置文件,包含模型结构参数。
pytorch_model.bin:模型权重文件,存储模型的权重数据。
保存分词器时,会生成以下文件:
tokenizer.json:分词器元数据文件。
special_tokens_map.json:特殊字符映射配置文件。
tokenizer_config.json:分词器基础配置文件。
vocab.txt:词表文件。
added_tokens.json:新增 Token 的配置文件。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-02-03
OpenClaw之后,我们离能规模化落地的Agent还差什么?
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2026-01-10
前Mata GenAI研究员田渊栋的年终总结:关于未来AI的思考
2025-11-21
2025-12-04
2026-01-04
2026-01-02
2025-11-22
2025-11-20
2026-01-01
2025-11-19
2025-12-21
2025-11-23
2026-02-03
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17