微信扫码
添加专属顾问
我要投稿
“ 向量是大模型的基石,嵌入是大模型的入口 ”
最近在研究RAG然后带来了对嵌入与向量的思考;毕竟嵌入与向量是实现大模型的基础;嵌入解决的是数据向量化的问题,而向量解决的是数据之间的关系问题。
Embedding中文翻译是嵌入,但更形象的理解是——在机器学习和大模型中,嵌入是一种数据向量化或向量表示的技术;简单来说就相当于一个转换器,把人类能够理解的数据包括文本,图像等转换为大模型方便处理的向量数据。
而向量是数学概念中的一个表示有大小和方向的量,其空间几何意义就是一个带有方向的箭头,并且可以平移;而更直观的理解可以把向量当成一个多维矩阵,更确切的说是用多维矩阵来描述向量。
因此,我们在大模型技术中所说的向量指的并不是空间维度;而是数据所构成的维度。所以说,向量是一个数学概念,而矩阵是向量在计算机中的载体。
嵌入与向量
向量
向量在数学上表示的一个有方向和大小的量,在计算机中的载体是一个多维矩阵;因此向量从某些方面讲就具备矩阵的性质,比如维度变换。
在大模型中数据一半通过多维矩阵来描述,比如大模型参数中有一个很重要的参数就是维度(dimension);这个维度指的就是多维矩阵的维度,维度越高,能够表示的场景就越复杂。
但同样,由于矩阵中存在着太多无用数据;因此就产生了密集矩阵和稀疏矩阵的区别;而稀疏矩阵可以通过降维的方式来压缩其矩阵大小,以此来获取更高的存储效率。
高维矩阵与低维矩阵的区别就类似于图片中的像素点;像素点越多,图片质量越好,观感上就更细腻;而像素点越低,图像就越模糊,丢失的东西就越多。
但同样的图片效果怎么样,除了像素点之外还有你观看距离的影响,离得越远,像素点的影响越小。
而为了解决近距离观看的效果,升维就有了用武之地;而远距离观看,就可以对数据进行降维处理,节省空间,提升效率。
而至于怎么描述数据之间的语义关系,就是通过向量之间的计算——比如欧式距离,余弦,内积等。
嵌入
嵌入虽然本质上都是把离散数据映射到高维矩阵中,通过向量的空间关系来捕捉数据之间的语义关系;但其在不同的场景中又有一定的区别。
词嵌入
词嵌入是将单词映射为数值向量,以捕捉单词间的语义和句法关系,为自然语言处理任务提供有效的特征表示。
方法与技术:词嵌入通过预测单词上下文(如Word2Vec)或全局词频统计(如GloVe)来学习,也可使用深度神经网络捕捉更复杂的语言特征。
图像嵌入
图像嵌入是将图像转换为低维向量,以简化处理并保留关键信息供机器学习使用。
方法与技术:利用深度学习模型(如CNN)抽取图像特征,通过降维技术映射到低维空间,训练优化嵌入向量。
在机器学习中,Embedding 主要是指将离散的高维数据(如文字、图片、音频)映射到低纬度的连续向量空间。这个过程会生成由实数构成的向量,用于捕捉原始数据的潜在的关系和结构。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-23
Harness Monitor:当多个 Agent 同时写代码时,如何看住质量
2026-05-23
从 Appshots 到 Goal Mode:Codex 正在变成工作流 Agent
2026-05-23
2小时烧掉9亿token后,我发现了OpenAI和Anthropic在/goal上的本质区别
2026-05-23
我在一天内完成10场用户访谈,领导大受震撼
2026-05-23
Codex 的 computer use 功能,为什么这么好用?
2026-05-22
我让3个AI吵了一整天架,它们把PRD写完了
2026-05-22
Cursor 把内部代码审查工具放出来了,AI 写代码之后,质量风险变了
2026-05-22
Codex 又又又更新了,这次能拍图带上下文,/goal 也正式上线了
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-03-17
2026-04-07
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07