微信扫码
添加专属顾问
 
                        我要投稿
DeepSeek-OCR + LangChain 1.0 打造的多模态数据分析Agent,轻松实现复杂文档解析与智能报告生成。核心内容: 1. 三大核心功能:高精度文档解析、超长文本压缩、动态可视化报表生成 2. 五大应用场景:金融投研、企业经营、政务审计、科研论文、合同合规 3. 技术突破:vLLM加速+智能切分+结构化存储解决多模态分析难题
 
                                输入:图表图片/ PDF多模态文件
        ↓
    【结构检测】识别坐标轴、图例、标题位置
        ↓
    【OCR提取】读取文字:轴标签、刻度值、数据标签
        ↓
    【图形识别】检测柱子、折线、点的位置和大小
        ↓
    【数据计算】根据像素位置和坐标刻度反推数值
        ↓
    【重新绘制】用提取的数据重新生成图表┌─────────────────────────────────────────────────┐
    │  输入:PDF文档 + 用户问题                          │
    │  "分析2024年财务报告,重点关注收入和利润"             │
    └──────────────────┬──────────────────────────────┘
                    ↓
            【第1步:文档识别】
            DeepSeek-OCR API
                    ↓
            输出:Markdown文本(10万字符)
                    ↓
            【第2步:智能切片】
            按标题分割为30个块
                    ↓
            【第3步:并发结构化提取】
            提取:摘要 + 表格 + 关键点
            耗时:(并发)
                    ↓
            【第4步:知识库构建】
            压缩为紧凑的上下文(2万字符)
                    ↓
            【第5步:LLM生成报告】
            输出:HTML + Title + Summary
                    ↓
            【第6步:保存展示】
            浏览器打开查看交互式报告
                    ↓
    ┌──────────────────┴──────────────────────────────┐
    │  输出:交互式HTML报告 + 文字分析摘要                 │
    │  - 7+ 个可视化图表(ECharts)                      │
    │  - 3-5条核心洞察要点                              │
    │  - 支持交互、导出、分享                            │
    └─────────────────────────────────────────────────┘DataAnalysis/                           # 项目根目录
    ├── 📁 backend/                            # 后端服务层
    │   ├── Data_analysis/
    │   │   ├── DeepSeek-OCR-vllm/            # OCR服务
    │   │   │   ├── backend_integration_api.py   # 🔥 主服务入口
    │   │   │   ├── simple_ocr_client.py         # OCR推理服务
    │   │   │   ├── config.py                    # OCR配置
    │   │   │   └── deepseek_ocr.py              # DeepSeek-VL模型封装
    │   │   ├── backwark/                     # 数据分析核心
    │   │   │   ├── Information_structuring.py   # 信息结构化
    │   │   │   ├── visualizer.py                # 可视化生成器
    │   │   │   └── pdf_exporter.py              # PDF导出
    │   │   └── mock_visualizer.py            # 测试用模拟器
    │   └── 10华夏收入混合型证券投资基金2024年年度报告.pdf  # 示例文档
    │
    └── /tmp/ocr_results/                      # 临时结果目录
        ├── status_*.json                     # 任务状态
        ├── *_analyzed.json                   # 结构化结果
        └── answer_*.html                     # 可视化报告# 创建新的虚拟环境
    conda create -n deepseek_ocr python=3.11 -y
    # 激活环境
    conda activate deepseek_ocrcd backend/DeepSeek-OCR-vllm
    pip install -r requirements.txt# DeepSeek-OCR 配置
    DEEPSEEK_MODEL_PATH=/home/data/nongwa/workspace/model/OCR/DeepSeek-OCR
    DEEPSEEK_OCR_URL=http://192.168.110.131:8707/ocr
    DEEPSEEK_OCR_HOST=0.0.0.0
    DEEPSEEK_OCR_PORT=8707
    # 数据分析配置
    DATA_ANALYSIS_BASE_SIZE=1024
    DATA_ANALYSIS_IMAGE_SIZE=640
    DATA_ANALYSIS_CROP_MODE=true
    DATA_ANALYSIS_PROMPT="<image>\n<|grounding|>Convert the document to markdown."
    # 信息结构化配置
    QWEN_TOKENIZER_PATH=/home/data/nongwa/workspace/Data_analysis/Qwen-tokenizer
    ANALYSIS_CHUNK_SIZE=1500
    ANALYSIS_MAX_WORKERS=10
    ANALYSIS_API_KEY=sk-xxx
    ANALYSIS_API_BASE=https://dashscope.aliyuncs.com/compatible-mode/v1
    ANALYSIS_MODEL_NAME=qwen3-max
    # 可视化配置
    VISUALIZER_API_KEY=sk-xxx
    VISUALIZER_API_BASE=https://dashscope.aliyuncs.com/compatible-mode/v1
    VISUALIZER_MODEL_NAME=qwen3-max
    # API服务配置
    API_HOST=0.0.0.0
    API_PORT=8708
    API_DEBUG=false
    API_RELOAD=false
    # 文件存储配置
    UPLOAD_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_uploads
    RESULTS_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_results
    TEMP_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_temp
    # 文件处理限制
    MAX_FILE_SIZE_MB=100
    SUPPORTED_EXTENSIONS=.jpg,.jpeg,.png,.pdf,.txt,.md
    # 并发和性能配置
    MAX_CONCURRENT_REQUESTS=5
    REQUEST_TIMEOUT=300
    CLEANUP_INTERVAL_HOURS=24
    # 开发环境配置
    ENVIRONMENT=development
    LOG_LEVEL=info# 确保在 deepseek_ocr 虚拟环境中
  conda activate deepseek_ocr
  # 进入项目目录
  cd /home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/DeepSeek-OCR-vllm
  # 启动主服务
  python backend_integration_api.py# 进入前端目录
  cd ./frontend
  # 安装依赖(首次运行需要,耗时约2-5分钟)
  npm install
  # 启动前端服务
  npm run dev53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-22
DeepSeek-OCR 实测
2025-09-25
Qwen3-Omni:一个模型,全能不偏科
2025-09-19
手把手教学:用n8n+RSS+飞书实现多平台热点自动抓取(含RSS源分享)
2025-09-17
多模态AI质检:身份核验场景实践
2025-09-06
多模态大模型Keye-VL-1.5发布!视频理解能力更强!
2025-09-03
Nano Banana 暴击 GPT-4o 绘图,谷歌赢麻了
2025-09-02
首个Nano-banana企业级多模态RAG教程,适合电商、游戏场景
2025-09-01
MiniMax音频依托MCP协议,打造多模态Tool新标杆!
 
            2025-09-03
2025-09-01
2025-09-19
2025-09-02
2025-09-06
2025-08-04
2025-08-25
2025-08-18
2025-10-22
2025-09-25
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05