游戏实操课 | 如何把大语言模型知识传授给小模型

发布日期：2024-06-22 07:28:40 浏览次数： 3005

作者：LitGate

微信搜一搜，关注“LitGate”

背景

当前大部分NLP任务都被大语言模型完成的非常好，但是在实际生产中在线使用大模型依然有阻碍，例如机器资源要求高、耗时不稳定等。而在实际业务中总有一些场景，使用LLM+prompt的方式觉得大材小用，但LLM又的确是效果最好的。

举一个简单的例子，情感分析是NLP领域的经典问题之一，假设你之前没有专门研究过这个问题，但懂如何使用大模型，这个任务直接写prompt然后指定输出格式就可以解决。但如果从服务角度来看，要提供对外的接口的话，本质就变成一个Completion的请求服务，当前如果没有很丰富的机器资源，是实现不了的。

而解决这个问题传统以BERT为代表的方法，训练比较麻烦，尤其是准备数据集，但计算效率会比较高，情感分析任务里本质只是计算一个概率。

有没有办法结合这两种方法各自的优势呢？

思路

直接说结论：我们完全可以让小模型去定向学习大模型在某个领域的知识。

还是以情感分析为例，假设我们要构建一个每秒几千几万次请求的二元情感判断接口（只判断情感是正向还是负向），如上文所述用大模型一定是有耗时和成本问题的。用BERT为代表的传统模型又非常依赖训练数据集，那核心问题就两个：

问题1：大模型有知识储备，但在线调用成本高

问题2：小模型没有知识储备，但需要很好的训练数据集

那我们直接用大模型去离线构建数据集，然后用数据集去精调小模型是不是可以？

实操：以情感分析为例

LLM和BERT知识对比

我们先看看大模型做情感分析实际什么效果：

from langchain.prompts import ChatPromptTemplatefrom langchain.chains import LLMChain
def llm_sentiment(comment_text):prompt = """你是一位短文本情绪分析大师，我现在会告诉你一条评论的原文{comment_text}, 请告诉我这个文本的情感是正向还是负向的，正向返回1，负向返回0，其中给出好评同时又给出修改意见的，算是正向注意请回复我单纯的数字，不要有任何多余的信息，现在开始"""prompt_template = ChatPromptTemplate.from_template(prompt)llm = load_llm(url=llm_config['venus_gpt4']['url'],api_key=llm_config['venus_gpt4']['api_key'],model_name="venus_gpt4")
# 3. load chainchain = LLMChain(llm=llm, prompt=prompt_template)r = chain.invoke({'comment_text': comment_text,})
return r['text']

得到的结果

效果还不错，基本跟一个人类的判断水平差不太多

然后看看BERT-base-Chinese加一个随便的公开数据集的效果

import torchfrom transformers import BertTokenizer, BertForSequenceClassification, AdamWfrom torch.utils.data import DataLoader, Dataset, random_splitimport pandas as pdfrom tqdm import tqdmimport random
# 数据集中1为正面，0为反面class SentimentDataset(Dataset):def __init__(self, dataframe, tokenizer, max_length=128):self.dataframe = dataframeself.tokenizer = tokenizerself.max_length = max_length
def __len__(self):return len(self.dataframe)
def __getitem__(self, idx):text = self.dataframe.iloc[idx]['review']label = self.dataframe.iloc[idx]['label']encoding = self.tokenizer(text, padding='max_length', truncation=True, max_length=self.max_length, return_tensors='pt')return {'input_ids': encoding['input_ids'].flatten(),'attention_mask': encoding['attention_mask'].flatten(),'labels': torch.tensor(label, dtype=torch.long)}

def prepare_data(tokenizer):# 创建数据集对象df = pd.read_csv("ChnSentiCorp_htl_all.csv")# 替换为你的训练数据集路径# 设置随机种子以确保可重复性random.seed(42)# 随机打乱数据行df = df.sample(frac=1).reset_index(drop=True)
dataset = SentimentDataset(df[:1500], tokenizer)
# 划分训练集和验证集train_size = int(0.8 * len(dataset))val_size = len(dataset) - train_sizetrain_dataset, val_dataset = random_split(dataset, [train_size, val_size])
# 创建数据加载器train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)val_loader = DataLoader(val_dataset, batch_size=8, shuffle=False)return train_loader, val_loader

# 读取训练数据集# 加载预训练的BERT模型和分词器tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
train_loader, val_loader = prepare_data(tokenizer)
# 设置训练参数optimizer = AdamW(model.parameters(), lr=5e-5)device = torch.device("cuda" if torch.cuda.is_available() else "cpu")model.to(device)
# 训练模型model.train()for epoch in range(3): for batch in tqdm(train_loader, desc="Epoch {}".format(epoch + 1)):input_ids = batch['input_ids'].to(device)attention_mask = batch['attention_mask'].to(device)labels = batch['labels'].to(device)
optimizer.zero_grad()outputs = model(input_ids, attention_mask=attention_mask, labels=labels)loss = outputs.lossloss.backward()optimizer.step()evall(model)

这里面的prepare_data就是找了一个常见的几十万条数据集，然后去调整Bert中文版，看看结果，为了方便我把上一轮的llm的数据也放进去了。

直接看吧，还是比较灾难的

把LLM知识传授给BERT

方法就是上面说的，让大模型回答问题，结果按照BERT训练数据集的格式存储。

def llm_sentiment(comment_text):# ... 同上return r['text']

if __name__ == '__main__':input_folder = "comment"
with open('output.csv', 'w', encoding='utf-8', newline='') as csv_file:csv_writer = csv.writer(csv_file)csv_writer.writerow(['label', 'review'])
for file_name in sorted(os.listdir(input_folder)):if file_name.endswith('.jsonl'):file_path = os.path.join(input_folder, file_name)print("start reading: ", file_path)with open(file_path, 'r', encoding='utf-8') as jsonl_file:with open('output.csv', 'a', encoding='utf-8', newline='') as csv_file:csv_writer = csv.writer(csv_file)
for line in jsonl_file:data = json.loads(line)# comment_id = data['commentId']comment_info = data['commentInfo']# bert_label = predict_sentiment(comment_info, tokenizer)llm_label = llm_sentiment(comment_info)if llm_label not in (1, 0, "0", "1"):print("llm_label drop: ", llm_label)continue# print("cc: ", bert_label, "ll: ", llm_label, " ", comment_info)csv_writer.writerow([llm_label, comment_info])