LangChain百万代码全解析：这个模型胃口很大！

发布日期：2024-08-13 18:18:22 浏览次数： 2815

作者：AI小智

微信搜一搜，关注“AI小智”

熟悉我的小伙伴们，一定看过我之前介绍Agent如何实现百万上下文RAG的那篇文章。不得不说AI发展真的是日新月异，这才没过多久，模型本身的上下文能力也来到了百万级别。

小智也是在苦思如何解决大模型代码库解析跨文件关联问题时，无意中在智谱AI 的大模型开放平台（bigmodel.cn）上发现了支持 1M 上下文（约 150-200 万汉字）的 GLM-4-Long。更没想到的是，模型一换，瞬间就解决了我好几天工程化都未能解决的麻烦！今天，就让我带大家一起看看，GLM-4-Long能力几何吧！

本文所有示例代码已上传github，有兴趣的小伙伴可以到文末自取。

小试牛刀，很懂《三体》恋爱脑云天明！

在谈论AI的代码解析能力之前，我们不妨先看一下它在处理自然语言文本方面的表现。为了测试GLM-4-Long的理解力，我决定让它尝试阅读并理解我最爱的科幻小说-94万字的《三体》。

抽取概括能力

作为一个具有强大理解能力的模型，必须具备从复杂的文本中抽取出关键的信息，并进行总结。当一次性输入整本小说，模型能有怎样的表现呢？

我决定以《三体》中的恋爱脑云天明为例，我们可以让模型梳理出云天明的个人故事，并按照时间线进行概括。

结果分析：

十分准确的，提取到了（危机纪元，广播纪元，银河纪元）三个阶段，并严格遵守了指令时间线梳理的要求
正确梳理出来了云天明的个人故事时间线，标注出了关键事件节点。
正确挖掘到了关键关联人物-程心，并找到了核心的关联事件
对云天明总结也十分不错，虽然我对他的映像只有恋爱脑

上下文串联与推理能力

除了信息抽取，一个优秀的长文本大模型还需要具备强大的上下文串联与推理能力。假设我们提出一个极端的假设：如果僵尸吃掉了云天明的脑子，三体的故事将会怎么发展？通过这样的假设，模型可以根据已有的故事情节推测出后续的发展方向。

假如僵尸吃掉了云天明的脑子，三体的故事将会怎么发展？

结果分析：不得不说，相比时间抽取任务上的精彩表现，在通过长文本基础上进一步推理思考的任务中，模型表现得则没有那么惊艳。

没有脱离大的故事框架，但把对宇宙的思考局限在了地球和三体上，这想象力完全不及大刘
针对地球和三体世界的关系和交流方式上，存在一定误解，云天明并不是交流工具！
总体来说，在如此长上下文的基础上，还具备基本的推理想象力，是值得进一步使用的模型

不仅能读小说，GLM-4-Long解析代码项目能力几何

用模型读小说，只是为了一探模型能力的究竟。真正能验证模型能力的，还得是真实的生产任务。接下来整活结束，让小智带领大家将GLM-4-Long用到代码开发中！

考虑到代码保密的要求，接下来小智将用LangChain代码用作示例演示。LangChain官网的AI助手是基于RAG实现的，现在既然我们拥有了超强上下文的能力，不如我们自己做一个。

准备工作，LangChain-Core代码一网打尽

RAG（检索增强生成）技术虽然强大，但在某些复杂的代码解析任务中，官方提供的LangChain助手并不能完全满足需求。因此，我们决定自己动手，利用GLM-4-Long打包整个项目的代码，并进行深度解析。

首先我们需要将langchain-core代码整体打包到一个文本文档中，并标注好文件目录

import os

def integrate_python_files(directory, output_file, identifier='---'):
    # 确保输出文件是空的
    open(output_file, 'w', encoding='utf-8').close()
    
    # 遍历目录
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith('.py'):
                # 构建文件的完整路径
                full_path = os.path.join(root, file)
                # 获取文件相对于主目录的相对路径
                relative_path = os.path.relpath(full_path, directory)
                # 读取文件内容
                with open(full_path, 'r', encoding='utf-8') as f:
                    file_content = f.read()
                
                # 写入输出文件
                with open(output_file, 'a', encoding='utf-8') as out_f:
                    # 添加标识符和文件的相对路径
                    out_f.write(f"{identifier} {relative_path}\n")
                    out_f.write(file_content)
                    out_f.write("\n")  # 添加一个空行作为分隔

# 调用函数
directory_path = 'langchain/libs/core/langchain_core'  # 替换为你的目录路径
output_file_path = 'integrated_code.txt'  # 替换为你的输出文件路径
integrate_python_files(directory_path, output_file_path, identifier='=======')