企业在落地大模型应用中的数据分析难题及解决方案

发布日期：2024-06-30 11:19:50 浏览次数： 3185

作者：智能体AI

微信搜一搜，关注“智能体AI”

随着人工智能技术的不断发展，大模型应用已经成为许多企业提升业务能力的重要手段。然而，在实际应用中，很多企业都面临着生成结果准确率较低的问题，尤其是在数据分析场景中。这一问题困扰着许多大模型项目负责人，严重影响了大模型的实际价值。

一、生成结果准确率低的原因

1、基于语言交互的复杂性

大模型数据分析主要依赖于语言交互方式，这种方式虽然灵活，但也带来了理解问题和生成结果的巨大挑战。由于用户提问方式无法限制，大模型需要具备高度的语言理解能力来处理各种复杂的查询，导致生成结果的准确率偏低。

2、单任务问题

示例1：含义清晰的单任务问题

用户提问：“最近7天xx产品的订单总量是多少？”

表结构：

-- 订单表 CREATE TABLE orders ( order_id INT PRIMARY KEY, product_name VARCHAR(255), order_date DATE, quantity INT );

模型生成SQL：

SELECT SUM(quantity) AS total_orders FROM orders WHERE product_name = 'xx产品' AND order_date >= CURDATE() - INTERVAL 7 DAY;

解释：该查询比较简单，因为问题涉及的指标（订单量、产品、时间）都比较明确。

示例2：含义模糊的单任务问题

用户提问：“xx产品今年累计卖了多少？”

模型生成SQL：

SELECT SUM(quantity) AS total_sales FROM orders WHERE product_name = 'xx产品' AND YEAR(order_date) = YEAR(CURDATE());

解释：虽然问题有些模糊，但大模型擅长将模糊语义对齐标准语义，因此可以准确生成结果。

3、多表数据处理问题

示例：涉及多表数据处理的问题

用户提问：“今年xx品牌在国内和国外的整体销量是多少？”

表结构：

-- 国内销售表 CREATE TABLE domestic_sales ( product_name VARCHAR(255), sales_count INT );  -- 国外销售表 CREATE TABLE international_sales ( product_name VARCHAR(255), sales_count INT );

模型生成SQL：

SELECT SUM(ds.sales_count) AS domestic_sales, SUM(is.sales_count) AS international_sales FROM domestic_sales ds, international_sales is WHERE ds.product_name = 'xx品牌' AND is.product_name = 'xx品牌';

解释：由于国内外销量数据存在于不同的表中，如果字段定义不明确，会导致SQL生成错误。解决方案是通过数据模型将数据打宽或预打宽。

4、复杂问题

示例：不限制问题长度的复杂问题

用户提问：“xx品牌最近3个月国内销量最好的产品是哪一款？每个产品平均每月销量是多少？”

模型生成SQL：

WITH sales_data AS ( SELECT product_name, SUM(quantity) AS total_sales FROM orders WHERE product_name = 'xx品牌' AND order_date >= CURDATE() - INTERVAL 3 MONTH GROUP BY product_name ), ranked_sales AS ( SELECT product_name, total_sales, RANK() OVER (ORDER BY total_sales DESC) AS sales_rank FROM sales_data ) SELECT product_name, total_sales / 3 AS avg_monthly_sales FROM ranked_sales WHERE sales_rank = 1;

解释：大模型需要先查询过去三个月内某品牌每个产品的销量，再找到销量最好的产品，并计算其平均每月销量。

5、专业算法问题

示例：复杂且需要调用专业算法的问题

用户提问：“华北地区xx的效率月环比为什么下降了？”

模型生成SQL：

-- 假设有一张效率表CREATE TABLE efficiency ( region VARCHAR(255), product_name VARCHAR(255), efficiency_value DECIMAL(10,2), month DATE ); -- 查询效率环比下降的原因WITH current_month AS ( SELECT efficiency_value FROM efficiency WHERE region = '华北' AND product_name = 'xx' AND month = CURDATE() - INTERVAL 1 MONTH ), previous_month AS ( SELECT efficiency_value FROM efficiency WHERE region = '华北' AND product_name = 'xx' AND month = CURDATE() - INTERVAL 2 MONTH ) SELECT cm.efficiency_value - pm.efficiency_value AS efficiency_drop FROM current_month cm, previous_month pm;

解释：大模型不仅需要查询上个月的数据，还要计算前一个月的环比数据，并判断是否下降。由于需要调用归因算法，这往往需要通过插件化方式进行。