大家都在说的“生成式AI”到底在说啥？最强“生成式AI”白话科普！一文给你讲清楚生成式人工智能背后的原理

发布日期：2024-06-14 04:42:08 浏览次数： 3511

作者：同桌的AI小纸条

微信搜一搜，关注“同桌的AI小纸条”

随着像是ChatGPT、通义千问、Kimi等等国内外AI产品百花齐放争奇斗艳，“生成式AI”这个词相信对于关注AI领域的大家已经耳熟能详了。但这里为啥要特别强调“生成式”呢?难道AI不都是这样的吗?

今天我们就来用大白话，给大家讲讲者所为“生成式AI”，到底在讲啥

什么是生成式AI

如果将人工智能按照用途进行简单分类的话，AI其实要被划分为两类：决策式AI和生成式AI。

判别式AI：专注于分析情况并做出决策。它通过评估多种选项和可能的结果，帮助用户或系统选择最佳的行动方案。例如，在自动驾驶车辆中，就是通过决策式AI系统决定何时加速、减速或变换车道。

生成式AI：专注于创造全新内容。它可以根据学习到的数据自动生成文本、图像、音乐等内容。例如，你可以将几篇论文发给生成式AI，他可以生成一篇文献综述，囊括了这几篇论文的关键思想、重要结论。

看到这里，你就知道为什么ChatGPT、Kimi这些属于生成式AI了吧?

接下来，让我们正式走入生成式AI的世界。

生成式AI的发展

早期萌芽阶段

1950年，Alan Turing提出"图灵测试"，标志AI内容生成的起点。

1957年，Lejaren Hiller和Leonard Isaacson创作了首支计算机"作曲"的《Illiac Suite》。

1964-1966年，Joseph Weizenbaum开发了首款对话机器人"Eliza"，通过关键字扫描和重组实现交互。

1980年代，IBM利用隐形马尔科夫链模型，推出了语音控制打字机"Tangora"。

韬光养晦阶段

随着互联网的发展，数据规模快速膨胀，给AI学习提供了海量训练数据。但因为电脑硬件还不够强大，此时AI的发展速度不是很快。

2007年，纽约大学人工智能研究员Ross Goodwin的人工智能系统撰写了小说《The Road》，这是AI第一次写小说。

2012年，微软公司公开展示了一个全自动同声传译系统，可以自动将英文演讲者的演讲内容通过语音识别、语言翻译、语音合成等技术生成中文语音，就像有个隐形的翻译员一样。

井喷式发展阶段

这个阶段，大量深度学习方法的提出和迭代更新，生成式AI进入崭新时代。

2017年，微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。

2019年，谷歌DeepMind团队发布了DVD-GAN架构用以生成连续视频。

2020年，OpenAI发布ChatGPT3，标志着自然语言处理(NLP)和AIGC领域的一个重要里程碑。

2021年，OpenAI推出了DALL-E，是现在大火的文生图的重要一步。

2022年开始到现在，OpenAI发布ChatGPT家族系列，如今已到Gpt-4o，每一次发布无疑不掀起了AIGC新一轮的浪潮，能够与理解人类的语言并与人类进行复杂的对话的技术渐渐在我们生活的方方面面初露锋芒。

生成式AI的原理

到现在，大家应该都对生成式AI有了一个表象的认知：学习知识+生成新知识。

但它是如何学习又是如何生成新知识的呢?

专业定义：生成式人工智能(Generative AI)是一种利用机器学习模型来生成新数据实例的人工智能技术。这些数据实例在统计特性上与训练数据相似，但具有不同的具体内容或结构。生成式AI通常依赖于复杂的算法，如生成对抗网络(GANs)、变分自编码器(VAEs)、循环神经网络(RNNs)等，它们能够捕捉到数据的分布特征，并在此基础上创造出新的样本。

看不懂...换个简单的定义

白话定义：生成式人工智能(Generative AI)是一种人工智能技术，它能够根据已有的数据模式生成新的数据实例，这些数据实例在结构和内容上与原始数据相似，但具体内容是全新的。这种技术通常用于创造文本、图像、音频和视频等内容。简单来说，生成式AI就像一个创意机器，能够“想象”出以前不存在的东西。

我们来把这个过程用下面捏泥人的过程类比一下：

第一步：捏泥人-搭建硬件架构

要打造一个生成式AI的“泥人”，首先要考虑的就是泥从哪里来?在AI的世界就是底层硬件，由AI的算力和存储力构成。

算力—骨架

生成式人工智能在处理复杂数据如图像和视频时，需要进行密集的计算。这需要依赖以下核心硬件支持：

GPU(图形处理器)：拥有大量小处理单元，能够同时处理多个任务，极大提升了计算速度。

TPU(张量处理器)：这是为AI训练特别优化的硬件，可以显著提高计算效率，加强了整体性能。

存储力—血液

生成式AI就像是个超级图书馆，里面装满了海量的信息和知识。比如说GPT-3，它要记住1750亿个知识点，还有45TB的资料库，每天能写出45亿字的文章，就像个不停歇的写作机器。

为了让这个写作机器运转得更顺畅，我们需要给它配备一些强大的硬件：

大容量RAM：这就像是它的超级大脑，能够快速存取大量的计算结果和知识点，让数据处理变得飞快。

SSD(固态硬盘)：大容量的SSD具有高速读取和写入能力，这就像是泥人的高速书架，能够迅速读取和存储信息，让知识的存取变得既快速又高效。

基本的泥人形态有了，但是目前它还没有任何能力，我们就要给他装上大脑。

第二步：装大脑——构建软件架构

软件架构就像是AI的大脑，决定了它如何理解和处理数据。

想象一下，我们希望AI能像人脑一样思考和学习——这就是深度学习的概念。

为了实现深度学习，研究者们设计了各种神经网络架构：

深度神经网络(DNN)是最常用的一种架构，但面对越来越复杂的数据，它开始显得有些力不从心。

卷积神经网络(CNN)是专门为图像设计的，它能很好地处理图像，但需要对输入的图片进行一些复杂的处理。

当我们处理的是一系列数据，比如时间序列或文本时，循环神经网络(RNN)就派上用场了。

但RNN在处理很长的数据序列时可能会遇到一些问题，比如梯度消失，这会导致模型效果变差。为了解决这个问题，研究者们提出了Transformer算法。

随着计算能力的提升，生成式AI的网络结构越来越先进，各有所长：

Transformer架构：目前文本生成领域的主流架，在写文章、聊天等领域已经被广泛使用。像GPT、llama2这样的大语言模型就是用Transformer架构，表现出色。

GANs架构：在制作图片和视频方面很有一套，能够创造出既清晰又逼真的视觉效果。

Diffusion架构：在绘画和音乐创作上表现不俗，能够创作出既优质又多样的作品。

网络架构搭建好了，脑子是有了，脑子也具备很强的基础能力，但是没有数据输入，也还是一个空壳。所以我们需要通过数据训练给这个人造大脑喂知识。

第三步：教知识-数据训练

现在训练AI主要有两种方法：预训练和SFT(有监督的微调)。

预训练：就是先给AI一大堆各种各样的信息，让它有个基础的了解。

经过预训练的AI，就像一个通才，对很多领域都略知一二，但还算不上专家。

SFT：在预训练的基础上，再给AI一些特定任务的信息，让它更深入地学习。

比如，如果想让AI更懂医学，就可以用医学文献来进一步训练它，让它在回答医学问题或写医学相关的内容时更专业。

不过，无论是预训练还是SFT，AI是怎么消化这些知识的呢?

AI的"理解"能力，咱们就拿Transformer架构来聊聊，它是怎么理解文字的。

AI理解文字分两步走：先理解单个词，再理解整个句子。

理解词，其实就是把词分类。研究者们想出了个办法：把词拆成不同的部分，然后分类。

举个例子，有四个词：西瓜、草莓、番茄和樱桃。AI用两个标准来拆解这些词：

颜色：红色用1表示，绿色用2表示

形状：圆形用1表示，椭圆形用2表示

然后，AI就根据这些标准给这些词打分，分类。

西瓜：颜色是2(绿色)，形状是1(圆形)。

草莓：颜色是1(红色)，形状是2(椭圆形)。

番茄：颜色是1(红色)，形状是1(圆形)。

樱桃：颜色是1(红色)，形状是1(圆形)。

这样，AI就能通过这种方式来"理解"每个词的特点了。

比如说，"番茄"和"樱桃"在颜色和形状上都是红的、圆的，这就意味着在这两个方面，它们给人的感觉是一样的。而"草莓"和"西瓜"在颜色和形状上就不一样，一个红的、椭圆的，一个绿的、圆的，所以在这两个方面，它们给人的感觉就不同。

但是，要区分它们，我们可不仅仅看颜色和形状这两个方面。AI还可以从很多其他方面来评价，比如大小、甜度、有没有籽等等，这样就能更细致地分类。

只要我们评价的方面足够多，给的分数足够准确，AI就能更精准地理解每个词到底是什么意思。

对于现在那些特别先进的AI模型，它们能够考虑的维度数量非常庞大，有时候能达到上千个。

学会识别和理解单个词语，把它们转换成量化的结果，这只是第一步。接下来，AI要更进一步，理解由多个词组成的集合：句子。

我们明白，即使是同一个词，在不同的语境下，意思也会不一样。比如：

"这是一顶绿色的帽子。" 这句话里，“绿色”的帽子，就是指帽子的颜色是绿色的。

某某公司致力于打造绿色机房。

AI怎么分辨同一个词在不同句子里不同的意思呢?这就要归功于Transformer架构里的“自注意力”机制了。

想象一下，AI在理解一个句子的时候，它不只是看每个词自己，还会看看它旁边的词。这个词和句子里其他词的关系，就是“注意力”。因为它是和句子里自己的词一起理解的，所以叫“自注意力”。

在Transformer架构里，这个过程分成两步：

1. 把每个词变成一个向量。这个向量就像是在很多维度上给这个词定位，显示了这个词的各种特点。

2. 用自注意力机制来关注句子的不同部分。这样，在处理每个词的时候，AI还会考虑句子里其他词的信息，从而理解这个词在这个特定句子里的意思。

第四步：开始做事—内容生成

AI在理解了大量的词和句子之后，就像个经验丰富的作家，开始创作新内容了。它是怎么做的呢?其实，这背后是一个关于概率的问题。

举个例子，大家来填空：

我在餐厅吃×。

×这个位置，你会填什么字?

根据我们通常的经验，很可能第一个想到的是“饭”。但×其实也可以填“饼”、“面”、“蛋”等等。

AI生成内容的过程也是这样。它会根据它学到的大量语言模式和概率，来决定在某个地方用什么词最合适。就像我们填空一样，AI会根据上下文，选择一个最有可能的词来填进去。这样，一个词接一个词，AI就能写出一段段新的内容了。

就像我们人一样，生成式AI也会根据它之前学到的东西，给每个字或词一个概率。然后，它会挑那些概率高的词来组成句子。AI会一遍又一遍地这么做，每次都选下一个最可能的词，这样就能连续不断地生成新内容。

但有时候，我们想要的不仅仅是最普通的答案，就像之前那个例子，如果不想AI总是接“饭”，那该怎么办呢?

这时候，AI有个调节的法宝，叫做“温度”参数，它的范围是从0到1。

- **温度为0**：AI会挑概率最高的词，比如在这个例子里，很可能就是“饭”。

- **温度为1**：AI会挑概率不那么高的词，这样可能会选“饼”。

如果温度值接近1，AI生成的内容就会更加多样和有创意。

比如，如果我们把温度设为0.8，AI生成的句子可能就会是：

我在餐厅吃饼，这个饼又大又圆，我想把它套在脖子上......这样的句子听起来就更有想象力和趣味性了。

大多数AI产品看起来可能就只有一个简单的对话框，但别被外表迷惑，调整生成内容的“温度”其实是通过我们输入的“提示词”来实现的。

如果你的提示词是：“你是一名某某领域的专家，请用严谨的口吻写一篇关于xx的文献综述。”这时，就像是把AI的温度调低了，它会选择那些最常见、最匹配的词来生成内容，就像专家那样说话。

如果你的提示词是：“请你畅想一下xx的未来。”这时，就像是把AI的温度调高了，它会选择一些不那么常见、更有创意的词来生成内容，可能会带来一些意想不到的惊喜。

现在你知道了，一个好的提示词对于引导AI生成你想要的内容有多重要。

所以，我们可以把AI生成内容的过程想象成一场词语接龙游戏：AI根据当前的词，回想它之前学到的下一个最可能的词，同时还会考虑你的期望和提示，然后决定下一个词是什么。这样一来，AI就能写出一段又一段符合你期望的文字了。

当然，生成式AI的内部原理远比这要复杂多了，我们只是用白话做一个简单的理解!

我们应该如何看待生成式AI？

基于上面的内容，大家应该已经大致理解在AI前面加上“生成式”这三个字，主要是为了区分不同类型的人工智能。AI领域其实非常广泛，除了生成式AI，还有以下几种常见的类型：

1.判别式AI：这种AI主要用于分类和识别任务，比如图像识别、语音识别等。它们通过学习数据的特征来区分不同的类别。

2.专家系统：模仿专家的决策过程，通常用于特定领域的问题解决，如医疗诊断、法律咨询等。

3.强化学习AI：通过与环境的交互来学习如何做出决策，以获得最大的累积奖励。这种AI在游戏、机器人控制等领域有广泛应用。

4.符号推理AI：依赖于符号和规则进行逻辑推理，解决数学问题或逻辑谜题。

5.感知机和神经网络：早期的AI技术，通过模拟人脑神经元的方式来处理信息。

生成式AI之所以特别，是因为它能够创造全新的内容，而不仅仅是识别或分类已有的信息。它能够写出新的文章、生成新的图像或音乐，甚至创造出全新的概念。这就是为什么“生成式”这三个字被特别强调的原因。

所以，当我们谈论生成式AI时，我们通常指的是那些能够进行创造性工作的AI系统，它们代表了AI领域的一个令人兴奋的新方向！

但是，关于生成式AI是否能实现通用人工智能(AGI)并替代人类，目前确实有两种不同的观点：

积极派：像OpenAI的CEO Sam Altman和英伟达的CEO黄仁勋这样的积极派人士，对生成式AI的前景非常乐观。他们认为，未来几年内，人工智能将变得更加强大和成熟，甚至在十年后可能会有惊人的表现。他们还预测，"AI可能在5年内超越人类智能"，这表明他们相信AI的发展潜力是巨大的。

消极派：以深度学习先驱杨立昆为代表，他们对生成式AI能否达到人类智能水平持怀疑态度。杨立昆在多个场合表达了他的看法，认为像ChatGPT这样的大型语言模型永远无法达到人类的智能水平，并且认为人类训练的人工智能难以超越人类。

然而，这个问题并没有简单的答案，因为通用人工智能的发展涉及到复杂的技术、伦理和社会问题。一方面，AI在特定任务上已经展现出超越人类的能力，比如围棋、象棋等。但另一方面，AI在理解常识、情感、创造力等方面与人类还有很大差距。

此外，即使AI在某些领域超越了人类，是否能够完全替代人类还取决于许多因素，包括AI的安全性、可控性、伦理道德等。因此，这是一个需要全社会共同思考和探讨的问题。

所以呢，对于我们普通人来说，面对生成式AI，我们不妨采取以下态度：

作为工具：将AI视为一个工具，用来提高工作效率，比如自动化一些日常任务，或者帮助我们更快地获取信息。

提高生活质量：利用AI来丰富我们的日常生活，比如通过智能助手来管理日程，或者使用推荐系统来发现新的音乐、电影等。

保持好奇心：对AI的发展保持好奇和开放的态度，了解最新的科技动态，探索AI如何帮助我们更好地理解世界。

享受便利：充分享受科技带来的便利，比如使用AI进行语言翻译，或者通过AI辅助的健康管理来监控身体状况。

持续学习：随着AI技术的发展，不断学习如何更好地与AI互动，以及如何利用AI来提升自己的技能和知识。

以积极的态度来接纳和利用生成式AI，同时也要意识到它目前的限制，并在享受科技带来的便利的同时，保持对技术发展的深思熟虑，为自己做好规划和拥抱变化的准备!

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业