如何利用AI大模型，从多模态数据中获取业务洞察？

发布日期：2024-05-23 18:07:23 浏览次数： 3263

作者：爱分析ifenxi

微信搜一搜，关注“爱分析ifenxi”

生成式 AI 的趋势下，尤其是智能运营场景当中，企业如何利用和落地生成式 AI 的应用，今天将分享基于亚马逊云科技生态体系下，生成式 AI 的应用案例分享，以及大家针对生成式AI的看法和解决业务痛点的共识问题。

分享嘉宾｜李云 亚马逊云科技生成式人工智能高级产品经理

大模型在企业内有哪些落地场景

生成式AI 已经是一个不可阻挡的趋势，我们相信它是可以解决一切“问题”的，但是“问题”是什么呢？

我们经常说要从大处着眼，小处着手，找到实际的业务痛点是关键，不要拿着锤子找钉子，钉子要钉在哪里才是需要解决的关键问题。下面会拿一些实际的客户案例，给大家来举例说明。

场景一：实现高效的情感分析、舆情分析和业务洞察

每个行业都有情感分析、舆情分析和业务洞察这样的共性需求，比如常见的商品评论信息、金融客户的财报分析、行业的洞察、第三方的社媒、还包括客户日常运营当中的各种反馈信息，不管是纸质的还是电子版的，会有各种收集到的信息。

挑战的地方在于：以前也有传统的机器学习来做，例如用 NLP 的自然语言处理的模型，它可能是一个模型解决一个任务，想关键词提取、情感分析、翻译等，每一个模型可能是解决特定的任务。

现在生成 AI 下的基础大模型，因为能力的涌现，可能一个大模型就解决了刚才说到挑战，能去在多个任务上面去直接解决，而且在人类语言的理解上面更进一步。传统的人工加自然语言机器学习，会造成人工造收集的效率低下，以及针对大规模的舆论进行分析时，模型层面的能力会限制最后输出的信息准确度。

而且通过人力加机器的方式，还存在模型的调优成本。整体来说，它的投入产出比，以及价值点还在精进中。但是现在生成式 AI 下的大模型，典型的优势有3点：

第一点，在信息处理的能力有显著提高，同时在任务的复杂度上，能够进一步的实现一些复杂的任务，比如 AI Agent 的概念，大脑部分由生成式 AI 大模型来充当，它可以决定下一步的 Action 的选取。

通过大模型洞察，一方面帮助我们能够收集到反馈投诉的信息，一方面解决在客户服务质量上面的优化，让客户有更高的满意度。

第二点，对特定的产品、细节上面有什么样的反馈，可以帮助我们有更好的洞见，能够观察一些消费者趋势。这些产品特性，对于消费者的市场反应，可以让我们做出更好的营销和决策。

第三点，在社媒和社区的评论当中，用户对于特定活动和特定商品的观点，以及竞争对手的评价信息和比较，可以更好地去挖掘用户的诉求，为产品改进提供参考。

以实际的举例来说明，在用户评论场景下有一个客户实践，用 Cloud 3 的大模型加上 Crew AI 的开源框架，构建了应用商城的用户分析工具。

那这个场景下的话它是做什么事呢？我们见到大量海外的客户，他去做游戏的 App Store 、Steam、Google Play上面的产品部署，会有大量的用户评论，这些评论数据，可以快速了解用户的反馈信息；可以发现客户的痛点需求；可以监控当前的应用表现，以及同行的竞品情况；可以收集用户对功能的反馈；可以更好地提供客户体验，以及最后就是提供竞争分析。

在架构设计上面用的是 Crew AI ，是一个开源的协作式多智能体框架，下面的多个 Agent 之间可以协同工作，每个 Agent 有特定的功能。比如说有的是用来爬取数据源，有的是要进行数据的处理，有的是直接调用大模型，有的是做场景分类，然后做评论分析的洞见总结，最后出来一个报告。这是一系列的自动化智能体，构建出来一个应用商店评论分析的工作流程。

比如以 Minecraft 的一个游戏做了一个验证，当评论的信息总结完毕后，会提供几个洞见。第一个是发现游戏当中的定价问题，其中有哪些信息点提到可以进行下一步的优化，第二个是网络连接的问题，网络层面导致客户体验变差，运营人员有更好的依据来进行调整。

通过上述方式得到的洞察，其实传统的评论分析也能做，为什么一定要用大语言模型或生成式 AI 的技术来做呢？

首先这些分析是可以 Agent 自动化的决策和完成的。其次它的洞见能力，当有海量的信息待处理时，用传统的机器模型，会有信息的缺失，以及总结能力弱。不如大模型时代下的总结和洞见，内容会更丰富、更细节、更智能。

这也是现在看到很多客户在评论分析场景下又重新研究，重新是实践的一个样例。

另外一个案例是一家 ToB 的 Shulex 公司，主要是做电商平台 VOC 的分析公司。他们为电商企业提供用户的洞察分析，帮助他们进行商业的决策。

这个场景下的痛点，包括海量信息如何进行分类、如何进行分析、用户长文本的处理能力是如何等等，最终解决方案可以支持长达 200K tokens 的超长上下文的信息，当给到大模型海量的信息，哪怕想找到其中某一句话，也能够把这句话召回出来，准确地调用到相关信息，这也是大模型和传统机器学习不一样的点。

同时这家公司还有智能客服的场景，基于 RAG 框架，用 AI Bot 识别用户的一些关键词，帮助了解用户的意图。在大模型时代下，它能够了解意图的分类更精细，标签化的维度更多，对用户的意图分析非常充分，在回答用户问题时，调用到知识库里面的内容，召回能力就更强，总结能力的话也会更有温度，更贴近人性，可以让用户体验更佳。

场景二：基于财务/运营报表的多模态信息分析

以前的 GPT 3.5 和 Llama 2 的这些开源模型，是文本类的、语言类的模型，输入文字输出文字，那多模态下的交互场景可以输入图片输出文本。

多模态中常见的一些场景，比如说金融行业分析财报信息，对财报的信息进行趋势的分析，以及用运营报表来提取关键字，来分析支出、收入、利润率等维度信息，甚至生成一些摘要。这些场景中往往是图文结合的方式来做，经常会遇到的一些问题。第一个就是文本的模型、语言的模型要转成多模态的模型，在提取过程当中往往有信息不一致的挑战，多模态的处理能力，是大模型时代下非常重要的关键指标之一。

第二个是模型识别出来的信息准确度，包括在处理复杂的问题上面，以及对于表格的结构处理，都是多模态模型的一些技术关键点。

以亚马逊云科技已经发布的财报为例，里边有比较多的一些信息，比如一些趋势图、公司的股票总结、一些指数和参数的分析，信息类型包括图表的趋势图、表格里结构化的键值对、还有大量的文本信息。

上图橙色框内就是总结，包括股票的总结信息，还有经济、财务类的总结信息，以及公司的指标信息。可以看到有三段，总结的非常整洁。

场景三：面对客服质检、智能客服问答的大模型应用

回归到文本场景当中的客服质检，常规的客服人员因为专业水平不同，对于公司的的规章制度和相关问题答案的理解不同，导致面对用户回复的结果是参差不齐的。

在这种场景下，大语言模型是如何体现它的的能力呢？看下面一个样例，是在客服坐席中规范用户对话的质检场景。是一个事后处理，但事后处理可以用于客服人员下次工作的参考，让大模型去打分，建议客服人员下一步该如何提高坐席的通话质量。这个场景在用客服回答的内容时，体现出来很多步的技术细节。

先是把语音场景的文本提取出来，再进行关键词的一些提取，提取后会把提取内容跟自己专用的标准回答库进行比对，然后进行打分，打完分之后会给到质检，评定出来 0123 分。比如一些专用的场景要回答一些关键词，包括保证金、会费率、订单等关键词，而客服在回答的时候是否跟标准答案有冲突。

比如上图左侧可以看到客服的一些规范要求，需要坐席回访与话术库之间的对话信息完全一致。所有的问题如果是标准的就打 2 分，如果中间有一些部分重合打 1 分，如果完全不一样就打 0 分。

智能问答的客服是生成式 AI 中最为广泛的应用场景，一个是多语种的知识能力，另一个是更接近人类自然语言的交互。以前也有大量的客服场景，是背后的机器人在跟我们进行回话，但是它处理问题都是标准答案，而且语气很生硬，能做到自然流畅的对话方式，是生成式 AI 改善的地方。

以及在有大量文档的场景中，比如说有PDF、 Word 、图表这信息，它的格式是比较复杂的，前期要做很多的处理工作，往往有专门的供应方负责解决前面的数据处理，到大模型时代下的对接。这也是一个构想中的业务到真正落地之间，其实有很多技术环节要实现，那这些技术环节里面，到底选择哪些合适的工具和合适的方案，才是我们需要去关注的点。

场景四：利用大模型优化用户体验、提升内部能效

互联网行业来说，有大量的社区评论，常常含有一些不合规的问题，这个应用场景更偏向于审核的场景。比如说有一些政治相关的问题，或者广告相关的问题，甚至有些色情的问题，这些敏感信息会带来企业风险，一般多用传统的方案解决，包括用规则性的方式去做，或者传统机器学习用语料库训练，这种场景下需要模型能力的持续迭代，但会受制于解决方案供应方的模型迭代速度，同时加人工审核的方式，需要大量的人工成本投入。

那这个场景下，如何用大模型来提效解决呢？

以一家游戏客户为例，他们当时有大量的话题场景需要做审核，利用大模型快速地鉴别用户是否有辱骂行为，识别完毕之后进行屏蔽，帮他快速地过滤敏感信息。一方面显著地提高识别的准确，另一方面也极大地提高了人审的效率。

第二个大模型应用是希望做舆情分析，每天大概有 50- 60 万的输入，基于大模型长文本对话的能力，提高输出的准确率，同时精准性也会更加好。

企业如何应用大模型平台的能力

亚马逊云科技提到的一个理念就是 Model As Service，大模型是未来的趋势，包括所有的产业链上都会有大模型驱动。

任何场景下，不是一个模型解决所有的问题，比如实时的场景和离线分析的场景，就会有差别，Amazon Bedrock 会提供很多款不同的模型去选择。针对不同的特定场景，所关注的点可能是不同的，可以根据场景选择不同的模型。

关于 Agent 的概念，未来的很多场景当中，都是用 Agent 智能体去做决策，驱动下一步的动作，而不是写死在原来的代码逻辑里面。大语言模型的能力充当大脑部分，以及生成的任务去做一些执行。为了降低大家使用 AI 的门槛，实现普惠，简化了集成的过程，只要选择适合的模型，然后执行需要的任务，选择调用的模型与数据源，就可以自动的分拆任务、调用知识库、分析请求自动调用需要执行的下一步任务的 API。整体的链条不需要在去设计，实现简便大家代码化的、工程化的功能。

以图示化的形式，为大家呈现出构建 Agent 的几个步骤。

第一步要去创建一个 Agent，比如办公助理帮助保险人员执行索赔的任务。

第二步添加需要调用的工具组，比如需要报销的功能选项，先要去检查文档相应的东西是否提交了，是否发送出去了，把这些工具组添加进去。

第三步需要配置从哪里调用数据源，比如报销的政策信息、索赔的处理文档、索赔的历史数据，把这些数据源准备好。

最后，这些工作就交给 Agent 完成。只需要设计一个前端页面，提交互动的动作就可以了。

场景不同，适合的大模型也不同

生成式AI大模型的能力有哪些？我们能利用这些能力做什么事情？

第一个 Claude 3 Opus 的 token 长度达到 200k，在长的上下文的范围内，提升了 2 倍的准确率。在传统的机器学习下，长文本进去之后，出来的结果可能文不对题，召回能力差，现在大语言模型时代下，它非常惊艳表现的之一，就是在一个非常长的上下文当中，也能帮助你去提取到需要的关键词。

第二个 Claude 3 Sonnet 具备更多的技能和速度优势，比如在金融领域，处理保险业中专业的知识能力，帮你去做一些服务的助手。比如在客服场景，生成自动化营销的文案。比如创意写作的能力，去生成符合 TikTok 风格的营销文案，或者符合携旅文化风格的文案，含有特定的特价机票信息、目的地、当地特色等信息，都能帮你生成出来。

第三个 Claude 3 Haiku 的实时响应速度非常快，比如转录的场景，比如会议纪要，可以直接提取出来，提取出来之后还可以做总结。还有实时聊天的场景、风控的场景，以及内部文件快速摘要等场景。

再来说大模型多模态的能力方面，对于生活化的图片可以识取标签。

比如说穿衣风格，有很多元素在里面：蓬蓬袖、短裙，彩色指甲等，能在生活中的图片提取很多标签，标签的信息越丰富，里面的内容素材越多，通过自然语言出来的营销文案细节就会更多，所以在多模态生成能力下，前一步的识别是非常重要的。

多模态能力也可以深化图片报表、信息提取、总结报告的数据等。

整体来说的话，大模型时代下，大家都非常兴奋的去做各种技术的尝试和调研，但是大家要更关注，除了性能表现之外，在数据的内容上面是否更可控、准确性是否更高、视觉能力是否更丰富。大模型更多的是工具，再特定的场景下，企业用户是更懂业务的专家，通过生态合作伙伴的能力，找到合适的工具，帮助企业从模型到应用之间做好桥梁，也期待未来有更多的业务场景可以共创业务实践。

以上就是本次分享，如需获取专家完整版视频实录和课件可扫码领取。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业