我要投稿

ChatBI：基于LLM+ERNIE的自然语言到复杂商业智能SQL

发布日期：2024-05-02 19:58:05 浏览次数： 4298

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

自然语言到SQL（NL2SQL）技术允许不熟悉数据库的非专家用户使用SQL进行数据分析。NL2BI是NL2SQL在实际生产系统中的一个流行实际场景，它引入了更多的挑战，如多轮对话（MRD）和大型语言模型（LLMs）在架构链接中的Token限制。

NL2SQL和NL2BI问题之间的区别。问题包含多轮对话，查询1：“过去七天的短视频播放量”，查询2：“周环比情况如何？”，查询3：“播放时长如何？”。NL2BI问题需要处理复杂语义、比较和计算关系的能力，以及多轮对话。两个问题的数据源也不同。

北邮联合百度联合提出了ChatBI，这是一种全面高效的技术，用于解决NL2BI任务。ChatBI通过分析交互模式，设计了更小、更经济的模型来匹配这种交互模式。它利用数据库社区中现有的视图技术，将架构链接问题分解为单视图选择问题，并使用较小的机器学习模型来选择列数显著减少的单个视图。

ChatBI总体架构

多轮对话匹配（Multi-Round Dialogues Matching）：ChatBI处理MRD场景，使用两个较小的Bert类模型进行文本分类和文本预测。

单视图选择：ChatBI将架构链接问题转化为单视图选择问题，使用视图技术来解决列的歧义和数量问题。

分阶段处理流程：ChatBI提出了一种不同于现有流程的处理流程，它首先生成包含复杂语义和比较关系的JSON中间结果，然后使用基于规则的SQL生成方法来产生目标SQL。

分阶段处理流程：ChatBI采用了一个创新的分阶段处理流程，该流程首先使用大型语言模型（LLMs）生成JSON格式的中间输出，然后将这些输出传递给BI中间件（如Apache SuperSet），以展示结果。这种方法与传统的直接依赖LLMs生成SQL的方法不同，它仅依赖于生成JSON。
复杂性解耦：通过将问题分解，ChatBI避免了LLMs直接处理SQL中的复杂语义、计算和比较关系。相反，LLMs只需要理解如何将这些复杂关系映射到JSON所需的输出。这种解耦方法简化了任务，提高了LLMs生成JSON的准确性。
虚拟列（Virtual Columns）：ChatBI引入了虚拟列的概念，以处理那些需要从其他列计算得出的列，如“DAU”。虚拟列通过其对应的键（列名）来访问计算规则，这些规则存储在JSON中，称为JnM（Json nested Map）。这种方法允许LLMs生成包含复杂计算步骤的查询，同时提高了查询生成的效率。
模板和规则：在新的处理流程中，Apache SuperSet使用通用模板来生成SQL。LLMs生成的JSON输出充当填写这些模板的占位符，最终输出SQL。这种方法利用了数据库社区对基于维度和列生成SQL的广泛研究。

ChatBI在百度的数据平台上进行了部署，并集成到多条产品线中进行了大规模生产任务评估。结果显示ChatBI在实用性、通用性和效率方面的优势，并在实际BI场景数据表和查询下取得了最佳结果。

SRD数据集和MRD数据集介绍。主版本和轻量版本对应不同的应用程序。DAU代表日活跃用户，新用户指首次注册的用户。

Towards Natural Language to Complex Business Intelligence SQLhttps://arxiv.org/pdf/2405.00527

大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-11

Claude Code：你需要知道的一切

2026-05-11

当 AI 巨头开始做咨询：企业 AI 从模型战争进入交付战争

2026-05-09

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

“Claude Code 你就作吧，我换 Codex 了”

2026-05-09

LLM 输出到这步才算可靠：生产级输出验证与质量工程实战

2026-05-09

OpenAI发布Codex for Chrome，能自动操控浏览器干活了！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

2026-02-14

OpenAI Codex CLI 完整使用指南

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

全球首个 AI 进化网络 EvoMap，给 Agent 装上 DNA

2026-02-20

大家都在问

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

为什么同一个模型，在 Claude Code/Codex CLI 里感觉像换了个脑子？

2026-05-07

「双线实测」Qwen 3.6-Plus，Agentic Coding 已经这么能「扛活儿」了？

2026-04-26

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

设计行业的“棺材板”，要被Claude Design盖上了？

2026-04-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw