微信扫码
添加专属顾问
前言
文本向量化是将文本数据转换为数值向量的过程。这种转换使得计算机能够理解和处理文本数据,从而可以应用各种机器学习和自然语言处理技术。文本向量化的主要问题是将非结构化的文本数据转换为结构化的向量表示,以便计算机能够对其进行处理和分析。通过文本向量化,可以实现文本分类、文本聚类、信息检索等任务。
在大模型时代下,文本向量化的技术发展到了embedding阶段。Embedding是一种将高维的文本数据映射到低维空间的技术,它能够捕捉到文本数据中的语义信息,并将其表示为稠密向量。这种表示更具有语义信息,相比于传统的词袋模型或者TF-IDF等表示方法,embedding能够更好地捕捉到单词之间的语义关系。
文本向量化技术发展史
整个文本向量化的发展过程是一个由简单到复杂,由低维到高维的演变过程。在早期,人们使用基于统计的方法,如词袋模型、TF-IDF等来表示文本。这些传统的基于统计的方法虽然能够实现一些简单的文本处理和自然语言理解任务,但是对于语义信息的把握能力有限,而且很难处理复杂的语言现象。随着深度学习技术的演变,尤其是Word2Vec、GloVe等词向量模型的提出,文本处理的效果和性能大幅提升,文本向量化技术开始向embedding方向发展。而后来的BERT、GPT等大型预训练模型的出现,则进一步推动了文本向量化技术的进步,使得文本向量化不仅能够表示单词或短语,还能够表示整个句子或文档的语义信息。新技术生成的文本向量不仅可以高效完成传统的自然语言处理任务,还在新兴的生成式人工智能技术(如检索增强生成等技术)中发挥了作用。
One-Hot编码(出现于2000年前)
One-Hot编码是一种将分类数据转换为二进制表示的方法,常用于数据处理和机器学习。One-Hot编码的概念一般被认为是随着计算机科学的发展而自然出现。在数字计算和数据处理的早期阶段,二进制表示极为盛行。当需要计算机处理非数值的数据(如颜色,产品类型等)时,One-Hot编码就是一种将各类数据数值化的朴素方法。
在文本向量化中,One-Hot编码的分类数据一般为单词或字符,以下以单词为例。通过这种编码方式,每个唯一的单词都用一个向量表示。向量的长度等于词汇表的单词数量,其中只有一个位置为1,其余位置都为0。这种表达方式生成的是稀疏向量,其中每个单词都由一个唯一的二进制向量表示,该向量中只有一个高位(1),其他都是低位(0)。
以“猫”、“狗”、“鱼”为例,One-Hot编码在文本向量化中的实现步骤大致如下:
首先识别所有的唯一单词,并建立长度为3的词汇表{“猫”, “狗”, “鱼”}。其次为每个单词分配索引,比如“猫”、“狗”、“鱼”分别分配索引位置0,1,2。然后为每个单词创建向量,例如,“猫”的向量是[1, 0, 0]。最后假使有一段文本内容为“猫猫狗狗”,它经过向量化后就是
[[1, 0, 0],
[1, 0, 0],
[0, 1, 0],
[0, 1, 0]]。
优点:
● 简单易实现。
● 能提供清晰明确的单词表示。
缺点:
● 词汇表偏大时会导致向量维度过高,从而造成内存使用量偏大。
● 无法存储单词之间的语义相似性(例如,”猫“和”狗“同为宠物动物应更加相似,然而在One-Hot编码中“猫”、“狗”、“鱼”三者的向量距离相同,所以不能体现这一特性)。
● 稀疏向量在某些任务中计算效率低。
应用场景:
● One-Hot编码通常用于文本处理的初始阶段或单词量相对较小的情况。
Bag of words (出现于2000年前)
Bag of Words(BoW)又称词袋模型,是一种简单而有效的文本向量化方法。词袋模型目前没有归属一个具体的发明者,而是在信息检索、文本分类和自然语言处理等领域中逐渐发展演变出来的一种常用的文本表示方法。One-Hot编码虽然完成了数据从非数值到数值的转变,但在文本分类,特征提取等方面作用十分有限,且每个词都对应一个稀疏向量,存储效率较低。词袋模型将文本看作是单词的无序集合,忽略词的顺序和语法,只关注词的出现频率。因此词袋模型在One-Hot编码的基础上提升了文本向量化的效果,并减少了存储负担。
仍以“猫”、“狗”、“鱼”为例,词袋模型在文本向量化中的实现步骤大致如下:
与One-Hot编码相同,首先识别所有的唯一单词,并建立长度为3的词汇表{“猫”, “狗”, “鱼”}。其次对于每一文本,创建一个与词汇表等长的向量。向量的每个位置对应词汇表中的一个词,该位置的值表示该词在文档中出现的次数。假使“猫”、“狗”、“鱼”的索引位置仍然分别为0,1,2,而文本依然是“猫猫狗狗”。与one-hot编码会生成一组向量不同,词袋模型只会产生一个向量[2, 2, 0]。向量中第0个元素2代表“猫”出现了两次,第1个元素2代表“狗”出现了两次,第2个元素0代表“鱼”出现了零次。
优点:
● 简单易实现。
● 对于小规模数据集,词袋模型的计算效率很高。
缺点:
● 对于大型词汇表,词袋模型生成的向量维度很高,从而导致内存使用量大。
● 完全忽略了词的顺序,无法捕捉句子的语法和结构信息。
● 仅仅统计词频,而无法捕捉词与词之间的语义关系。
应用场景:
● 作为一种基础的文本向量化方法,词袋模型可用于简单的文本处理任务,也可结合其他技术而用于更复杂的场景中。
TF-IDF(出现于2000年前)
TF-IDF(Term Frequency-Inverse Document Frequency),翻译为词频-逆文档频率,是一种常用于文本挖掘和信息检索的统计方法,用来评估一个词在一个文档集或语料库中的重要程度。现今的TF-IDF方法被认为是文本挖掘和信息检索领域逐渐发展和完善的结果,但逆文档频率的基本概念由计算机科学家Karen Spärck Jones在1957年提出,用来评估在一个文档集中,一个词对它所在的文档的重要性。TF-IDF可以帮助筛选出在文档中具有重要意义的词汇,常用于关键词提取、文档相似度计算和文本分类等任务。
TF-IDF由两个部分组成:词频(TF)和逆文档频率(IDF)。词频是一个词在一个文档中出现的频率。词频越高,表明这个词在该文档中越重要。词频的公式为:
逆文档频率衡量一个词在整个文档集(可能包含多个文档)中出现的稀有程度。一个词在越多文档中出现,其区分能力越低,IDF值就越小。逆文档频率的计算公式为:
两个公式中:
ft,d是词t在文档d中出现的次数。
nd是文档d中所有词的总数。
N是文档集D中文档的总数。
|{d∈D:t∈d}|是包含词t的文档总数。
最后,TF-IDF 是词频和逆文档频率的乘积,用来衡量一个词在一个文档中的重要性,其计算公式为:
举例来说,假设有以下三个文档:
文档1: ”狗追猫。“
文档2: "猫爬墙。"
文档3: "狗趴地。"
TF-IDF("猫",文档1, 文档集)的计算如下:
TF("猫",文档1) = 1/3。
IDF("猫",文档集) = log(3 / (1 + 2)) = 0。
TF-IDF("猫",文档1,文档集) = 1/3 * 0 = 0。
可以看出,由于“猫” 在多个文档中出现,因此其区分能力较低,IDF值为0,导致TF-IDF值也为0。
优点:
● 简单易实现。
● 考虑了词的重要性,减少了常见但不重要的词(如“的”、“与”等)的权重。
● 适用于自然语言处理中的多种任务,如文本分类、文本聚类、信息检索等。
缺点:
● 对于大型文档集,由于词汇量庞大,生成的 TF-IDF 矩阵往往非常稀疏,所以计算效率不高。
● 只考虑了词汇的出现频率,而忽略了词汇在文本中的顺序信息。
● 没有考虑词汇之间的语义关系。
● TF-IDF 的计算方式导致它的效果依赖于足够大的文档集,数据量不足可能导致效果不佳。
应用场景:
● 关键词提取
● 文档相似度计算
● 信息检索
● 文本分类
Word2Vec(出现于2013年)
Word2Vec是一种基于神经网络的embedding模型,由谷歌的研究人员Tomas Mikolov等在2013年提出。Word2Vec的作者认为之前的文本向量化方法很少考虑词与词之间的意义关联,所以效果不佳。因此,Word2Vec将单词映射到低维向量空间中,使得相似词在向量空间中也保持相近的距离。
Word2Vec主要由两种模型架构组成:Skip-Gram和Continuous Bag of Words(CBOW)。Skip-Gram通过当前词预测其上下文词。给定一个中心词,模型会预测一个固定长度的上下文窗口(前后若干词)中的所有词。训练过程中,模型会学习到每个词的向量表示,使得能够更好地预测这些上下文词。与Skip-Gram相反,CBOW的目标是通过上下文词预测当前词。给定一个上下文窗口中的所有词,模型会预测这个窗口的中心词。
Word2Vec模型的核心思想是通过训练神经网络,使得单词与其上下文之间的关系可以在向量空间中被有效地表示。Word2Vec的输入层是一个one-hot向量(one-hot vector),长度为词汇表大小(V)。紧接着是一个投影层,由输入层经过一个权重矩阵W(维度为V x N,N为嵌入向量的维度),投影到N维向量空间中。投影层的输出通过另一个权重矩阵W'(维度为N x V),映射回一个词汇表大小的向量,此为输出层。最后经过一个Softmax层得到每个词的概率。在训练过程中,Word2Vec模型通过最大化目标函数(取决于使用Skip-Gram还是CBOW,以及采用的优化函数的方法)来更新权重矩阵,从而使得embedding能够捕捉到词汇的语义信息。
优点:
● 由于采用了浅层神经网络,训练速度较快,适合处理大规模数据。
● 能够捕捉到词与词之间的语义关系,如词性、同义词等。
● 可以用于多种自然语言处理任务,如文本分类、情感分析、机器翻译等。
缺点:
● 每个词只有一个固定的向量表示,无法处理多义词的不同语义。
● 无法考虑词在不同上下文中的语义变化。
应用场景:
● 信息检索
● 文本分类
● 推荐系统,如根据用户的评论调整推荐的产品
GloVe(出现于2014年)
GloVe (Global Vectors for Word Representation)是一种无监督的文本向量化的学习算法,由斯坦福大学的Jeffrey Pennington等在2014年提出。它通过捕捉单词在大规模语料库中的共现统计信息,生成高质量的词向量。GloVe的作者认为使用共现词的概率的比可以更好地区分相关和无关的词,因此GloVe的核心是共现矩阵和词对共现概率。共现矩阵中的每个元素Xi,j表示词j出现在词i的上下文中的次数。词对共现概率定义为:
意为词j在词i的上下文中出现的概率。GloVe 的优化目标是通过最小化一个损失函数,使得embedding能够很好地预测共现概率。损失函数如下:
其中,wi和wj分别是词i和词j的词向量,bi和bj是偏置项,f(Xij)是一个加权函数,用于减少高频共现对模型的影响。加权函数f通常定义为:
其中Xmax是一个阈值,在GloVe作者的实验中被设置为100,而3/4被认为是一个合适的α的值。
优点:
●充分利用了全局共现统计信息,使得词向量可以捕捉到词语之间的复杂关系。
●通过对共现矩阵进行处理,GloVe 的训练速度较快,适合大规模语料库。
●生成的词向量在语义上具有较强的解释力,可以很好地应用于各种自然语言处理任务,如文本分类、情感分析、问答系统等。
缺点:
●每个词只有一个固定的向量表示,无法处理多义词的不同语义。
●通常需要大规模的语料库来获得高质量的词向量表示。
● 尽管训练过程可以并行化,但仍需要较高的计算资源和时间来训练高质量embeddings。
●虽然关注单词之间的共现频率,但忽略了语法结构。
应用场景:
●文本分析
●信息检索
●问答系统
FastText(出现于2016年)
FastText是由Facebook的人工智能研究团队开发的一种用于文本分类和词向量表示的开源库,适用于大规模数据集和高性能需求的任务。FastText的相关论文由Piotr Bojanowski等人在2016年发表,FastText的作者认为之前的文本向量化方法没有考虑单词内部的子词之间的关系,所以性能受限。为了改善这个限制,FastText的核心原理包括两大部分:词向量表示和文本分类。
词向量表示
FastText 的一个关键创新在于利用了子词信息(Subword Information),即将每个单词表示为多个 n-gram 的组合。
文本分类原理
在文本分类任务中,FastText通过将文本表示为一系列词向量的平均来生成文档向量。对于一个文本d中的每个词w,其向量表示为vw。文本d的表示为所有词向量的平均,即:
FastText使用线性分类器来进行文本分类。文本向量vd通过一个全连接层,并使用Softmax函数来输出类别概率。分类模型的公式为:
其中W是权重矩阵,b是偏置项。
优点:
● 训练和预测速度也很快,适合实时应用。
● 能够处理具有大量类别的任务,并保持高效性。
● 支持多种语言的文本处理。
缺点:
● 使用静态词向量,无法捕捉上下文相关的词义变化。
应用场景:
● 文本分类
● 关键词提取
● 拼写错误纠正
ELMo(出现于2018年)
ELMo(Embeddings from Language Models)是一种由Allen Institute for AI的研究者Matthew E. Peters等在2018年提出的embedding方法,通过上下文中的词语来捕捉语义。ELMo的作者认为之前的文本向量化方式没有考虑一个词在不同上下文中意义的变化,所以与Word2Vec和GloVe不同,ELMo能够捕捉到词在不同上下文中的不同意义,从而生成更为丰富和精确的embedding。
ELMo使用双向LSTM(Long Short-Term Memory)网络作为基础架构。该网络包括一个向前的LSTM和一个向后的LSTM,它们分别从左到右和从右到左遍历文本序列,学习每个词的前向和后向上下文。这个双向LSTM被训练为一个语言模型,目标是预测句子中的下一个词(对于前向LSTM)和前一个词(对于后向LSTM)。对于给定的文本序列,ELMo会为每个词提取多层的表示。对于每个词,ELMo提供三层的embedding输出:一层来自embedding层(类似于传统的embedding),另外两层来自双向LSTM的各自输出。最后,ELMo使用这些层的加权和作为结果,公式如下:
其中γ是一个可学习的标量;sj是层j的可学习权重;ht(j)是词t在层j的表示。为了使这些输出被应用在不同任务中,ELMo提出了一种动态加权的方法,可以为不同层的输出分配不同的权重。这样,模型不仅使用了所有层的信息,还根据任务动态调整了每层信息的重要性。
优点:
● 基于整个句子的上下文信息生成embedding,能够更好地处理多义词和上下文依赖性强的词。
● 能够捕捉复杂的句子结构和长距离依赖关系。
● 预训练的ELMo模型可以很容易地迁移到各种下游自然语言处理任务中。
缺点:
● 模型较大,训练和推理过程需要大量的计算资源。
● 由于模型复杂,推理速度较慢。
应用场景:
● 情感分析
● 问答系统
● 文本分类
● 机器翻译
基于Transformer结构的embedding模型(出现于2018年后)
谷歌的研究人员Ashish Vaswani等在2017年提出了带有注意力机制的Transformer模型结构,可以利用输入序列的全局信息进行输出,改善了在RNN和LSTM中的长距离依赖问题,同时提高了并行计算能力使训练过程大幅加速。
随着transformer结构的推出,在2018年开始出现了许多各具特色的基于Transformer结构的embedding模型。其中BERT (Bidirectional Encoder Representations from Transformers) 是一种双向Transformer编码器,用于生成上下文感知的词向量。GPT (Generative Pre-trained Transformer) 系列则是单向,且主要用于文本生成任务。T5 (Text-To-Text Transfer Transformer) 将所有任务统一为文本到文本的转换。RoBERTa (Robustly Optimized BERT Approach) 对BERT进行了优化,提升了性能。DistilBERT 则是BERT的轻量级版本,旨在减少计算资源。ALBERT (A Lite BERT) 通过参数共享和因子分解,进一步减小了模型大小。这些模型同传统的embedding方法相比效果显著提高,被广泛应用于自然语言处理的各种任务。
结语
在大模型时代,embedding成为一项必不可少的技术,主要是因为它能够有效地将大量高维数据(如文本、图像和音频信息)转换成更低维的、密集的向量表示。这种表示可以捕捉到数据的本质特征,并且在处理和计算上更为高效。通过embedding,模型可以在这些压缩的向量空间中学习数据之间的复杂关系和模式,从而提高了处理速度和准确性。此外,embedding使得模型能够在较小的表示空间中进行操作,减少了计算资源的需求,同时也便于模型的训练和推理,这对于处理现代大规模数据集尤为关键。Embedding在大模型时代扮演着桥梁的角色,跨越了原始数据和机器学习算法之间的巨大鸿沟。
在自然语言处理领域,文本向量化技术的发展带来了革命性的变化。从最早的One-Hot编码到当前基于Transformer结构的embedding模型,每一次创新都带来了更高效、更精准的文本表示方式,为文本处理提供了更为灵活、高效的解决方案。未来,随着技术的不断进步和应用场景的不断拓展,文本向量化技术将继续发挥着重要的作用,并为人工智能在文本理解和处理领域带来更广阔的发展空间。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。