AI落地行业的一些“乱七八糟”的小技巧

发布日期：2024-09-08 08:23:19 浏览次数： 2551

作者：真的会了吗

微信搜一搜，关注“真的会了吗”

背景

随着人工智能（AI）技术的快速发展，在各行各业的应用也日益广泛。当AI在行业落地时，往往会遇到一些相似的的问题，可以总结为以下几点：

（1）基础数据的缺乏

业务场景数据往往数据量有限且是私有数据，标注质量以及管理相对不规范，数据质量不高。数据基础薄弱，也是AI落地的关键因素之一

（2）人才的缺失

AI技术比较好的人才，大部分在互联网行业或者一些独角兽企业，做一些行业落地的偏少。并且即懂AI技术，有了解业务的复合型人才十分稀缺，很大程度上也限制了AI的落地和应用

（3）模型的可靠性、业务指标可达成性的问题

与“搜推广”不同的是，很多刚需场景对于业务指标的要求很高，比如：工业质检，一些零部件的缺陷检测以及数量统计等，往往要求准确率高于99%，这种情况对AI模型的可靠性，准确性以及稳定性要求很高。

下面从模型优化的路径来看一些数据迭代的方法。

AI落地行业的数据迭代方法

2.1 AI落地行业的一般流程

一般的项目流程可以分为：

1 设计

2 开发

3 测试以及上线

这三个比较大的阶段，对于算法为主的落地场景也不例外。

AI落地的主要流程

对于AI算法为主的项目整体流程如上图所示。

当业务需求被技术抽象之后，我们完成了技术方案的确认以及模型选型。我们进入模型开发阶段，模型开发的主要流程可以归纳为以下几个主要步骤：

模型迭代的一些逻辑

一般情况下，在业务需求明确以及技术选型确认的情况下，我们会迅速收集标注第一波原始数据/公开数据，做一些简单的调参工作之后，会产出初版模型。同时业务场景的测试集合也需要准备好，测试集合是业务场景的抽象，最好和业务专家对齐，对于基础模型的Top3 的问题的分析一定要重视，要有统计指标做支撑，寻找问题产生的原因，以及找到合理的解决方案。

核心的可以总结为以下几点：

1 快速产出初版模型（充分利用互联网，公开数据，已有业务现场数据）

2 测试集合是业务场景的抽象，测试集合要与真实业务场景相契合，最好和业务专家对其

3 分析问题要有统计指标做支撑，关心top3 的主要问题，以及找出合理的解决方案（包括但不限于，模型，数据，业务逻辑等等）

2.2 数据准备

快速的构建初版模型离不开数据的准备工作，是快速标注还是利用已有数据对应不同的开发周期。下面以一个例子，介绍两个数据收集的小技巧，假设当前任务是：红外相机拍摄的野生动物的识别。任务拆分为两个部分，野生动物目标检测和物种识别，分别对应一个目标检测模型和一个识别模型。

2.2.1 初始版本数据积累-充分利用公开数据

目标：快速产出初版模型

大部分任务都会有一些公开的数据集合（当然也不排除一些比较特殊的场景，很难找到开源数据）。你好

初版野生动物的目标检测的数据可以从两方面入手：

1 通用目标检测的公开数据集，CoCo，Object365， OpenImage等等

2 红外相机的公开数据集，如果仔细调研，这方面的数据应该是很多的，训练基础模型基本上是没啥问题。

coco数据集中一些动物数据的可视化

野生动物的目标识别的数据可以从两方面入手：

1 公开数据，先确认下公开数据是否有符合的种类

2 对于一些相对特殊的种类（其他一些比较好用语言描述的图片，以文搜图/视频）可以借助百度，google，抖音，快手，youtube等图片/视频搜索工具，进行特定种类的图片的爬取（这种方式的合规性暂不讨论，大规模爬取的风险请自行评估）。这种方式的问题主要是数据清洗成本相对较高，需要设计好数据清洗的方案

某视频网站上“獾”的搜索结果，还是有很多数据可以用大

2.2.2 数据迭代-数据分布更贴合实际业务场景-挖掘，合成，构造模型需要的近似业务场景的数据

目标：这一步的目标基本上是是训练数据的分布贴近真实业务场景

测试集合：在业务场景收集符合场景需求的测试集合，

数据迭代：基础数据训练的基础模型大概率只能解决一部分问题，无法完全满足非常简单的业务场景需求，真实的场景往往都是比较复杂的，需要迭代，在我们完成初版模型构建以及业务场景的测试数据分析之后，针对当前的主要问题，我们可以通过数据合成，数据仿真，业务场景数据挖掘等多种方法来弥补我们由于训练数据数据与实际业务现场数据分布不一致导致的问题。

迭代优化方面我们继续用上上面的例子来举例：

假设我已经完成了初版数据以及模型的训练，在测试集合上进行测试发现，野生动物的目标检测的主要问题是：

A：误检较多

主要原因是，公开数据数量众多，前景丰富度相对高，背景比较简单，丰富度不够，下图中可以看出真实场景中，背景的复杂度比公开数据高很多，那么解决方案是，找到/构造背景复杂并且符合业务场景分布的数据，可以使用copy and paste也可以使用其他方法

“秘境之眼”中真实红外相机拍摄的数据，真实的业务场景数据背景的复杂度比公开数据高很多

B：存在遮挡的哺乳动物会漏检

第二个问题需要分两步走，首先，定义好算法的边界，这个边界也是标注规则的标准（可以先定一个，后面再迭代这个边界），遮挡小于多少是需要召回的，其次，看下模型方面和数据方面分别有什么合适的方案，模型方面主要需要关注的点包含：Loss的计算，数据增强以及预处理对遮挡部分的影响等。

真正做完以上两步基本上算是及格了，恭喜突破及格线，大概率也是可以初步上线的模型，到这里也就是基本合格吧，但是如果想做出彩还需要精细打磨

冲破及格线啦

2.2.3 效果精细打磨阶段

大的优化点已经完成，如果想做出彩是远远不够的，后面的精细打磨阶段可以分为两个部分：

A：和业务相关

业务逻辑/交互体验如何与模型更加适配

线上数据流程如何更合理化，一些错误问题的弱化以及反馈机制，这里的问题都和业务相关

B：模型优化

一些重要的但是不好解决的case如何优化，一些新的技术能不能引入到模型优化的过程中来，这部分的实验成功率普遍偏低，但是也是比较重要的技术壁垒的体现

AI落地小众行业工具类

如果业务刚刚开始，或者行业比较小，预算有限，可以跳过这部分，但是如果有一定的规模，并且业务相似性高，那工具可以提高迭代效率以及人效

（1）数据标注以及管理平台：开源的工具和网站有很多，最简单的labelme，labelIMG等等。前期可以使用开源工具快速构建出版数据以及模型，但是如果业务规模较大，并且有一定的规律也可以定制化自己的管理平台，贯穿数据的接入层，处理层，以及利用三个部分，既可以加快效率也可以给客户/领导有更好的可视化效果。

（2）模型训练工具以及平台，简单的一些gpu机器配置上一些基础环境也可以（没有的话可以），一些简单的工具做到算法组内部通用几个，工具本是为了提高效率，在工作过程中进行沉淀定期总结是比较好的，切记不要为了造工具而造工具，没什么意义的

（3）部署相关工具以及更新流程：

包括边缘端部署以及服务端模型部署以及更新流程，构建完整的部署流程以及工具库并且留档，可以提高整体模型上线的效率