2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!

发布日期:2024-08-14 08:45:40 浏览次数: 5579
作者:AI进修生

微信搜一搜,关注“AI进修生”

今天我将介绍:如何使用Kimi API将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及 如何部署FastGPT并接入Kimi API

我会使用两种方式来完成QA问答对生成这个需求,第一种是使用Langchain这个框架编码实现,第二种是将Kimi API接入FastGPT中,再利用他的“文档问答”功能实现。

实际上,我曾使用Coze很长一段时间,并且在这个平台上我经常使用的基础模型就是Kimi-128k,我使用它构建知识库、生成长文本内容、解读我的本地文档... ...

我喜欢Kimi,除了它聊天客户端的各种强大的功能以外,它的API能进行更强大的超长文本、多文档的深度理解任务,且收费标准非常低廉。

最近一段时间我在使用FastGPT这个项目,这个项目需要我们自己借助One-API去接入其他第三方模型,我想要接入Kimi,就像在Coze平台上使用它一样~

一、使用Kimi+Langchain生成QA问答对

1、我们首先导入依赖包

主要包括一些结构化的处理库,还有langchain的依赖库。

记得先下载Langchain~

pip install langchain
import osimport jsonfrom typing import Listfrom tqdm import tqdmfrom langchain_community.chat_models.moonshot import MoonshotChatfrom langchain_core.prompts import ChatPromptTemplatefrom langchain_core.pydantic_v1 import BaseModel, Fieldfrom langchain_core.output_parsers import JsonOutputParserfrom langchain_community.document_loaders import UnstructuredFileLoaderfrom langchain_text_splitters import RecursiveCharacterTextSplitter

2、然后去官网获取Kimi API

新用户注册送15元免费额度(文末我还会介绍免费获取Kimi API的方式,仅供个人测试):

▲ https://platform.moonshot.cn/console/api-keys

以moonshot-v1-128k为例,每1,000,000 tokens价格为60元,对于一段通常的中文文本,1 个 Token 大约相当于 1.5-2 个汉字。《甄嬛传》小说第一部20 万字,所以一本小说消耗约6块钱,而moonshot-v1-8k相对于128k会便宜5倍。

假设你已经获取了API Key,那么现在我们在代码中设置它:

# 设置 Moonshot API Keyos.environ["MOONSHOT_API_KEY"] = "eyJhbGciOixxx"

Kimi兼容OpenAI接口

3、输入给大模型的是一个个分块

Kimi会针对分块来建立QA问答对。所以我们要先对传入的文档进行分块,这里假定输入的文档格式为txt,当然借助Kimi或者Langchain你可以编码以支持更多格式。

我们将使用Langchain的RecursiveCharacterTextSplitter函数对加载文档进行分块:

# 文档处理函数def split_document(filepath):loader = UnstructuredFileLoader(filepath)text_spliter = RecursiveCharacterTextSplitter(chunk_size=2048,chunk_overlap=128)documents = loader.load_and_split(text_spliter)return documents

我们都知道Kimi的一大特点是拥有大海捞针超长文本提取信息能力,用来做文档转QA非常合适。

并且假设这个数据集是对小模型微调的数据集,那么生成它的微调数据的LLM应该是性能比它更好的。

▲ Kimi  文件API支持全格式

4、编写结构化输出提示词

我们需要使用系统提示词明确他是在做文本转问答对这件事情,所以我们需要编写针对于Kimi的系统提示词:QA_PAIRS_SYSTEM_PROMPT 

其中“<Context></Context> ”会出现在后面的用户提示词中,同时下面这段提示词也是Fastgpt的官方示例。

QA_PAIRS_SYSTEM_PROMPT = """  <Context></Context> 标记中是一段文本,学习和分析它,并整理学习成果:- 提出问题并给出每个问题的答案。- 答案需详细完整,尽可能保留原文描述。- 答案可以包含普通文字、链接、代码、表格、公示、媒体链接等 Markdown 元素。- 最多提出 30 个问题。"""

除此以外,如果你的原始文档中包含大量的链接或者公示内容,你可以参考使用我的这个有针对性性的结构化提示词。

Role: 文档分块嵌入模型提示词生成器
Profile- author: Aitrainee- version: 1.0- language: 中文- description: 生成用于RAG索引的QA问答对,确保分块后的文档内容能够生成包含完整Markdown元素的QA问答对。
Skills1. 能够分析文档内容并生成相关问题与答案。2. 保留并提取文档中的链接、表格、图片及其他Markdown元素。3. 生成覆盖文档内容关键要点的详细QA问答对。4. 确保生成的QA对适合后续处理与引用。
Rules1. 对文档内容进行分析,并提取出主要信息。2. 针对每个分块的文档内容,生成相关问题,问题和答案中必须保留并正确提取文中的链接、表格、图片及其他Markdown元素。4. 确保生成的答案详细完整,并准确反映源内容的描述。5. 在QA对的答案中,使用Markdown格式表示图片和表格的链接。- 例如:![表格描述](表格链接)或![图片描述](图片链接)。6. 如果某段内容包含多种类型的信息(如文字、表格、图片等),确保在QA对的答案中体现每种信息。
Workflows1. 分析文档内容,识别出需要保留的关键元素(如链接、表格、图片等)。2. 针对识别出的每个元素和上下文,生成问题并构建详细的答案。3. 对生成的QA对进行审核,确保所有Markdown元素均被正确处理并保留。4. 将最终的QA对嵌入到模型中,确保在后续的问答环节中能够准确调用。
Init<Context></Context> 标记中是一段文档内容,要求模型学习和分析这段内容,并整理出有效的QA问答对。为确保信息完整,请遵循以下要求:
- 针对文档内容提出尽可能多且相关的问题,每个问题的答案需要完整且详细。- 尽可能保留原文中的描述,并且注意保留任何涉及的链接、表格、图片及其他相关Markdown元素。- 如文档中包含图片、表格或其他媒体内容,请将其转换为适当的Markdown格式,并确保将链接或嵌入代码包括在内。- 对每个段落,最多提出30个问题,确保覆盖文档内容的关键要点。- 确保QA对中每个答案都准确反映源内容,并包括任何必要的上下文,以便后续处理和引用。
例子:- 问题:此段落描述了什么内容?答案:段落描述了...[具体描述],并包含表格如下:[表格链接或Markdown格式]。
- 问题:文中引用的图片是什么?答案:文中引用了一个相关图片,链接如下:[![图片描述](图片链接)]。

然后我们准备用户提示词(QA_PAIRS_HUMAN_PROMPT),这里主要告诉模型,你希望明确输出的数据格式,比如我们选择Alpaca 格式(省略了system和history):

QA_PAIRS_HUMAN_PROMPT = """请按以下格式整理学习成果:[{{"instruction": "人类指令/问题(必填)","input": "人类输入(选填)","output": "模型回答(必填)"}}]
我们开始吧!  <Context>{text}<Context/>"""

5、提示词编写好之后

我们构建Langchain 链。根据 Langchain 的ICEL语法,我们分别将提示词大模型和解析参数,组成 prompt | llm | parser 链。

提示词选择上面两个,大模型我们指定Kimi的128 k,结构化解析参数输出我们指定为:JasonJsonOutputParser

# LLM部分替换为MoonshotChatdef create_chain():prompt = ChatPromptTemplate.from_messages([("system", QA_PAIRS_SYSTEM_PROMPT),("human", QA_PAIRS_HUMAN_PROMPT)])llm = MoonshotChat(model="moonshot-v1-128k")# 使用MoonshotChatparser = JsonOutputParser(pydantic_object=QaPairs)chain = prompt | llm | parserreturn chain

对于结构化输出这一部分,我们可以参考langchain官方这一篇教程:

▲ https://python.langchain.com/v0.2/docs/how_to/structured_output/

6、上面的还没结束

上面代码中JsonOutputParser传入的参数,也就是结果模型(QaPairs),我们需要定义一下。

# 结果模型定义class QaPair(BaseModel):instruction: str = Field(description='问题内容')#"input": "人类输入(选填)",input: str = Field(description='人类输入(针对问题内容,选填)')output: str = Field(description='问题的回答')
class QaPairs(BaseModel):qas: List[QaPair] = Field(description='问答对列表')

7、最后一步

我们把上面的代码写在main里面,并且增加一些辅助代码用于将大模型生成的问答对存储在json文件中:

def main():chain = create_chain()documents = split_document('data/12.txt')# 替换为你的文档路径
# # 打印分块结果# for i, doc in enumerate(documents):# print(f"Document chunk {i + 1}:")# print(doc.page_content)# print("-" * 80)
# 继续处理文档with open('dataset.json', 'a', encoding='utf-8') as f:# 打开文件,使用 'a' 模式进行追加写入bar = tqdm(total=len(documents))for idx, doc in enumerate(documents):print(doc.page_content)# 调试API响应print(f"Processing document chunk {idx + 1}")out = chain.invoke({'text': doc.page_content})print(f"API response for chunk {idx + 1}: {out}")
# 无论返回什么,直接写入文件f.write(json.dumps(out, ensure_ascii=False, indent=2) + ",\n")# 实时写入并添加换行f.flush()# 确保数据立即写入磁盘bar.update(1)bar.close()
if __name__ == '__main__':main()

8、我们运行一下,看一下效果。

输入一个关于kimi介绍的文档:

点击运行,代码会先进行分块,然后一个一个分块的去生成问答对:

控制台按照每一个分块被处理后显示进度:

最终输出我们需要的文件格式。

目前这个代码,三块是按照最大2048token,以及每一块重复为128 token来分块的(重复是为了增加块与块之间的联系),后续考虑给原文的增加分割符。

其实在编写代码的过程中,遇到了很多关于结构的错误,包括模型输出内容写入json里面。

至此,第一部分结束~

二、Kimi API接入FastGPT

FastGPT:一个免费、开源且功能强大的 AI 知识库平台,提供开箱即用的数据处理、模型调用、RAG 检索和可视化 AI 工作流。轻松构建复杂的 LLM 应用程序。

我们使用docker部署它,先确保你安装了Docker环境:

1、运行FastGPT部署指令:

mkdir fastgptcd fastgptcurl -O https://raw.githubusercontent.com/labring/FastGPT/main/projects/app/data/config.json
# pgvector 版本(测试推荐,简单快捷)curl -o docker-compose.yml https://raw.githubusercontent.com/labring/FastGPT/main/files/docker/docker-compose-pgvector.yml

好的看来他已经完成了,在浏览器打开3000端口:http://localhost:3000/

2、Fastgpt内部集成了Openapi接口:

One-API:让国内LLM、Coze等跑通仅支持OpenAI API的开源项目 | 保姆级教程、可配合免费LLM API使用!

我们要把Kimi的api接入进去,所以我们打开One-API:http://localhost:3001

点击渠道

把箭头上面的这些配好就行,密钥用前面Kimi官网生成的(免费密钥获取的Kimi API我会写在最后)。

点击测试,可以看到右上角测试通过

然后向config文件加入moonshot-v1-128k模型

配置好后,由于配置了新的渠道,所以我们得重启一下:

docker-compose restart

备注:如果启动后发现one-api测试通过,但是fastgpt前端测试不通过,那么请运行

#先关闭删除容器docker-compose down#再运行docker-compose up -d

我们可以看到fastgpt多了一个:moonshot-v1-128k 模型,接入成功!

3、在fastgpt中新建一个知识库,文本处理模型就选择moonshot-v1-128k

嵌入模型默认用的是Openai的(用不了),你可以选择去Ollama中下载一个,然后和上面配置Kimi API一样的步骤,把这个本地嵌入模型配置到One-API中。

记得config.json也要配置,fastgpt才有显示

两个模型都有之后,然后选择新建文本数据

现在选择问答拆分+自动:

问答拆分的自定义规则是需要你的文本中包含分割符,并且输入拆分引导词:

选择之后点击提交下一步,几分钟之后,他就可以得到这样的问答对

选择一个查看:

QA问答对的知识库还可以导出为CSV格式:

至此,第2部分结束~

三、用于学习与测试的免费Kimi API项目

▲ https://github.com/LLM-Red-Team/kimi-free-api

主要是利用Kimi-free-api这个项目来获取免费实验性Kimi API,不要用于生产环境哦~

还要说一点,这个API不支持文件接口,只是Chat接口,

▲ Kimi官方文件接口API

1、你需要准备一台公网服务器:

首先从 kimi.moonshot.cn 获取refresh_token,进入Kimi 随便发起一个对话,然后F12打开开发者工具,从Application > Local Storage中找到refresh_token的值,这将作为API Key。

记录上面的Api Key,然后部署这个项目,只需要运行:

docker run -it -d --init --name kimi-free-api -p 8001:8000 -e TZ=Asia/Shanghai vinlic/kimi-free-api:latest

2、Kimi在本地编码中接入:Langchain实现QA问答对

你需要把API Key替换成上面的refresh_token

然后,你需要将Langchain的moonshot包中的base url替换成服务器IP,比如:http://服务器ip:端口/v1

Langchain Python依赖包下面C:\Users\Aitrainee\anaconda3\Lib\site-packages\langchain_community\llms\moonshot.py,这个文件中找到:MOONSHOT_SERVICE_URL_BASE

3、Kimi 接入FastGPT的OneAPI

也同样很简单,你只需要把服务器ip填入到这个代理里,

或者选择类型的时候选择自定义渠道并填入服务器ip:

至此第三部分结束~

全文代码:公众号后台回复Kimi,或者去下方Github仓库中获取(后期更新处):https://github.com/Ai-trainee/LangChain-Notebooks
总体来说,我非常喜欢Kimi的长文本处理能力。它支持TXT、PDF、Word文档、PPT幻灯片和Excel电子表格,且总字数最高可达20万字。
Kimi API兼容OpenAI 接口,这样方便项目迁移以及实验Github上更广泛的Openai 相关开源项目。
除此以外,Kimi 的API还有工具调用功能,我们可以配合Coze、FastGPT、Dify、Langchain等框架来创建和管理这些工具,并配合 Kimi 大模型设计出更加复杂的工作流。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅