微信扫码
添加专属顾问
探索LLM在语义嵌入领域的突破进展,洞悉其在NLP任务中的应用潜力。 核心内容: 1. 语义嵌入技术的重要性及其在NLP任务中的应用价值 2. LLM技术如何推动语义嵌入技术的发展与革新 3. 基于LLM的语义嵌入模型最新进展及其在搜索、推荐等任务中的应用前景
01
1.1 语义嵌入
文本语义嵌入,作为将文本映射到语义空间的关键技术,通过将原本高维且稀疏的向量转化为低维稠密向量,实现了对单词、句子乃至整个文档深层次语义信息的精确捕捉。这一技术在信息检索、问答系统、文本相似度计算及推荐系统等自然语言处理(NLP)的诸多任务中展现出广泛的应用价值。
早期语义嵌入方法,诸如 Word2vec 和 GloVe,主要基于统计特性构建,然而,这些方法受限于其静态性,难以充分捕捉自然语言复杂多变的上下文信息。随后,BERT 及其衍生的一系列上下文敏感模型(如 RoBERTa、DistilBERT、ALBERT 等)应运而生,通过独特的模型增强与优化策略,不仅保留了双向编码的核心优势,还显著提升了语义嵌入对上下文信息的感知能力。此外,Sentence-BERT 模型的提出,通过引入连体网络(Siamese Network)和三重网络(Triplet Network)结构,实现了高效的句子级嵌入生成。近年来,随着对比学习框架的兴起,如 SimCSE 等方法利用标准 dropout 作为噪声源,无需额外监督数据即可生成高质量的句子向量,进一步推动了语义嵌入技术的革新与发展。
当前研究热点聚焦于通用文本嵌入技术的优化,通过引入多阶段训练范式和复杂的数据混合策略,如 E5[1]、BGE[2]、GTE[3] 等模型,在数据规模、质量及多样性方面取得了显著进展。随着大语言模型(LLM)的蓬勃发展,利用 LLM 生成语义嵌入成为新的研究方向。研究者们通过合成高质量训练数据以提升嵌入性能,或直接以 LLM 作为模型主干生成嵌入,显著增强了语义嵌入的鲁棒性和泛化能力,为 NLP 领域的未来发展探索出了新的道路。
1.2 大语言模型(LLM)
LLM语义嵌入 | 传统语义嵌入 | |
模型结构 | LLM 通常具有更复杂的网络结构和更大的参数量,能够捕捉更丰富的语义和上下文信息。 | 通常是基于 Transformer 结构,通过预训练来学习文本的深度双向表示。 |
训练方式 | LLM 通常在大规模无监督语料库上进行预训练,然后通过微调(fine-tuning)来适应特定的下游任务。这种训练方式使得LLM能够学习到广泛的语言知识和模式。 | 同样在大规模语料库上进行预训练,如 BERT,主要依赖于掩码语言模型(MLM)和下一句预测(NSP)两个任务。这些任务旨在捕捉文本的语义和上下文信息,但相较于LLM,训练方式更为特定和受限。 |
嵌入质量 | 由于 LLM 具有更大的模型容量和更复杂的网络结构,它能够捕捉到更细微和丰富的语义信息,从而生成更准确的嵌入表示。 | 同样能够捕捉到文本的语义信息,但在处理长文本或复杂上下文时,其性能可能受到模型容量和训练方式的限制。 |
应用场景 | LLM 由于其强大的语义理解和生成能力,更适用于处理复杂的 NLP 任务,如机器翻译、对话系统、文本生成等。LLM 通常支持多种语言,能够处理跨语言的语义嵌入任务。 | 在多种 NLP 任务中得到了广泛应用,如文本分类、命名实体识别、情感分析等。但在某些特定领域或任务中,通常需要在该领域或任务上进行特定的微调和优化。 |
02
随着 LLM 的广泛应用,出现了一些利用 LLM 来生成语义嵌入的尝试。Jiang等人[7] 首次提出了基于提示(prompt)的句子嵌入方法,结合对比学习框架,通过设计如 “[X] means [MASK]” (其中,[X] 表示一个 placeholder,对应一个句子,[MASK] 则表示待预测的 token)的模板捕捉句子表征,并借助模板去噪避免语义偏向。随后,Zeng等人[8] 提出了 Prompt-derived Virtual semantic Prototypes(ConPVP)的对比学习方法,利用提示构建虚拟语义原型及否定原型,通过原型对比损失优化句子嵌入。Cheng等人[9] 则进一步提出了基于AI反馈(CLAIF)的句子嵌入对比学习方法,利用来自 LLM 的AI反馈来构建具有细粒度样本相似性分数的样本对,提升句子嵌入的监督对比学习的效果。
当前,利用 LLM 提升语义嵌入的研究热点聚焦于合成数据和模型骨干两大方向,如图 1 所示。下面将具体介绍各方向的一些代表模型。
2.1 合成数据
用改进的难负样本对 E5-mistral-7b-instruct 进行多任务微调,将性能提高了0.93%。主要结论有:
语义嵌入与聚类任务集成后检索性能显著提高,并通过多任务知识转移进一步增强检索性能。此外,通过采用多任务训练并使模型适应特定任务,可以增强泛化能力。
采用任务同构批处理,即同个batch里的所有样本来自于同个任务,这样可以保证对比学习的 in-batch negatives 更具挑战性。
之前的难负样本挖掘方法都是先通过检索将排序靠前的文档作为难负样本,这样有可能混入部分错误的负样本,影响模型训练结果。该方法发现使用排序在30-100之间的文档作为难负样本能提升模型性能,而使用排序在0-100之间的文档则容易引入错误的负样本,使用排序在50-100之间的文档则缺乏训练难度。
2.1.3 Gecko
【主要贡献】
Gecko 提出的主要思想:从 LLM 中提取知识到检索器中。使用两步蒸馏过程:首先使用 LLM 生成不同的任务-查询对数据。接下来通过为每个查询检索一组候选段落,并使用相同的 LLM 重新标记正样本和难负样本段落,进一步改进数据质量。
Gecko 选用 gtr-t5-xl (1.2B, encoder from T5-3B model) 模型骨架。通过将 LLM 生成的和经 LLM 排序的数据,与人工标注的数据相结合,Gecko 模型在 MTEB 基准上实现了较好性能。
【算法概述】
该方法利用知识蒸馏的思想,创建了一个两步骤的 LLM 驱动的嵌入模型。
其中 $p_{seed}$ 是从web语料库中随机抽取的一个段落,而 $P_{QG}$ 是一个固定的提示符。对于每个示例来说,提示模板是相同的,并且由几个示例和说明组成。LLM 生成一个任务描述 t(描述了检索的类型,如问答或事实检查)。通过对这些任务描述进行抽样,可以指导 LLM 生成与任务一致的查询 ?。
正负样本挖掘
首先,给定生成的查询 ?,使用一个嵌入模型来检索最相关的段落。然后,使用 LLM 根据检索到的段落与查询的相关性对它们进行排序。排序方法采用的是查询似然(query likelihood)和相关性分类(relevance classification)这两个少样本提示的 LLM 排序函数。最后将两种不同提示结果的排名与标准的倒数秩融合(RRF)方法集成在一起,获得排名函数?(?,?),并根据排名找到更多相关的正样本以及生成查询的难负样本。
2.2 模型骨干
另一类主流方法是将 LLM 作为语义嵌入的主干网络,原因在于它们无需遵循现有语义嵌入模型中普遍采用的对比预训练步骤,使得 LLM 在训练过程中能够更加灵活地处理文本数据。得益于全面的自回归预训练,LLM 能够充分捕捉到文本中的上下文信息和语义关系,具有出色的文本表征能力,并且仅需最少的微调即可转化为高效的通用文本嵌入模型。
同样,后续内容将着重介绍在 MTEB 基准测试中表现优异的几个语义嵌入模型。其中,NV-Embed-v2[13] 模型通过关注潜在向量并采用两阶段对比指令调优方法来提升性能;BGE-EN-ICL[14] 模型则利用LLM中的 in-context learning 能力来优化语义嵌入的生成;Echo-mistral[15] 模型采用双向注意机制,通过重复输入并提取第二次出现的嵌入来增强效果;LLM2Vec[16] 模型同样采用了双向注意力机制,还结合掩码下一个token预测以及无监督对比学习来提升嵌入效果;GRIT[17] 模型通过训练LLM和指令,实现了生成和嵌入任务的统一处理;GTE-Qwen1.5-7B-instruct[18] 模型则利用双向注意力机制、查询侧指令调优,并融合了弱监督与监督数据进行训练;最后,stella_en_1.5B_v5[19] 模型简化了提示的使用,为大多数通用任务提供了序列到段落(s2p)和序列到序列(s2s)两种便捷的提示方式。
【算法概述】
最后通过一个正则 MLP 层和平均池化来获得整个序列的嵌入。
为了进一步增强表征学习,在 decoder-only 的 LLM 对比训练过程中去掉了因果注意掩码,从而缓解了单向注意力对模型表示能力的限制。
模型训练
【主要贡献】
利用 LLM 中的in-context learning(ICL)能力来增强语义嵌入生成的过程。BGE-EN-ICL 模型使用少量示例来生成高质量的语义嵌入,直接将与任务相关的示例集成到查询端,从而在多种任务上取得了显著的改进。此外,还研究了如何有效地将 LLM 用作嵌入模型,包括各种注意力机制、池化方法等。
该模型采用 Mistral-7B 作为模型骨架,研究结果表明,保留原始框架往往能获得最佳结果。在 MTEB 基准测试上的实验结果目前排名第二。
【算法概述】
通过少样本对比训练实现 ICL 增强嵌入模型。考虑嵌入任务中的一个查询-段落对$(q_i , p_i )$,首先构建一个示例模板如下:
“task definition”表示特定嵌入任务的描述(图 6)。对于一个相关的查询-段落对$(q^+, p^+)$,修改后的查询构建如下:
2.2.3 Echo-mistral
【主要贡献】
自回归模型中由于存在因果注意力掩码,会导致token嵌入无法包含出现在输入中较靠后的token的信息。为了解决这一限制,Echo-mistral 模型中设计了 “Echo embeddings”(如图 7 所示),即使用双向注意:重复两次输入并从第二次出现中提取嵌入。原则上,第二次出现的语境化嵌入可以关注第一次中呈现的整个句子。此外,需要在 LLM 的提示信息中包括如“重写”或“重述”等词,从而尽可能确保第二次真的“编码”了关于第一次的信息。实验表明,Echo嵌入可以编码靠后token的信息,从而最大限度地利用 LLM 进行嵌入。
在 MTEB 排行榜上,Echo嵌入比传统嵌入提高了9%以上,在微调后提高了0.7%左右。与之前没有利用合成微调数据的开源模型相比,Mistral-7B 模型的Echo嵌入也有较大提升。
△图7: Echo嵌入概念介绍
LLM2Vec 选择 Llama-3 和 Mistral-7B 作为模型骨架,实验结果和广泛的分析表明,能够以参数高效的方式将 LLM 有效地转变为通用文本编码器,而无需额外的调整或利用 GPT-4 合成的数据。
【算法概述】
2.2.5 GRIT
【主要贡献】
Generative Representational Instruction Tuning (GRIT) 模型,与 Echo-mistral 和 LLM2Vec 的思想类似,也强调了双向注意力对通用文本嵌入的重要性。然而,生成式表征指令调优(GRIT)方法的关键在于,通过训练 LLM 和指令来统一处理生成和嵌入任务。对于长文本,不再需要单独的检索和生成模型,该模型可以将检索增强生成(RAG)的速度提高60%以上。模型骨架选用 Mistral-7b 和 Mistral-8x7b。
【算法概述】
GRIT 将表征式指令调优和生成式指令调优统一到了一个模型中。采用一致的数据格式,使用表征和生成式指令数据对预训练的 LLM 进行微调,如图 9 所示。对于表征数据,使用 in-batch negatives 的对比目标来计算损失,同时采用双向注意力机制,随后进行平均池化对序列长度上的最终隐藏状态进行平均。为了计算生成式数据的损失,GRIT 使用语言建模目标,即模型需要预测下一个 token。最后,将目标函数与损失权重$ λ_{Rep}$(表征式损失权重)和 $λ_{Gen}$(生成式损失权重)相加。
2.2.6 GTE-Qwen1.5-7B-instruct
【主要贡献】
GTE-Qwen1.5-7B-instruct 基于 GTE 嵌入模型和 Qwen1.5-7B LLM 所构建,借鉴了 Qwen1.5-7B 模型强大的自然语言处理能力。通过先进的嵌入训练技术,该模型融入了多项关键改进:
2.2.7 stella_en_1.5B_v5
【主要贡献】
该模型是基于 GTE-large-en-v1.5 和 GTE-Qwen2-1.5B-instruct 进行训练的。简化了提示的使用,为大多数通用任务提供了两个提示,一个是用于序列到段落(s2p)任务,另一个是用于序列到序列(s2s)任务。
2.3 方法小结
在本节中,我们详细阐述了基于 LLM 的通用文本嵌入算法模型(特别是在 MTEB 测试中排名前10的模型)。多数算法研究表明,通过全面的自回归预训练策略,LLM 能够习得高质量的文本表征,仅需少量微调即可转型为高效的通用文本嵌入模型。具体而言,微软提出的 E5-mistral-7b-instruct 与谷歌 DeepMind 的 Gecko 模型展示了两种创新途径,即通过 LLM 生成合成数据以进一步优化通用文本嵌入性能。同时,Echo-mistral 与LLM2Vec 的研究则强调,专为 decoder-only LLM 设计双向注意力机制,无需依赖合成数据,同样能实现出色的通用文本嵌入效果。BGE-EN-ICL 利用 LLM 中的 ICL 能力来增强文本嵌入生成的过程。NV-Embed-v2 设计了关注潜在向量的池化嵌入输出,并提出一种两阶段指令调优方法以提高检索和非检索任务的准确性。值得注意的是,本节介绍的所有专注于文本语义嵌入的 LLM 模型均采用了指令调优方法。这主要归因于 LLM 卓越的指令遵循能力,从而可以构建能够灵活应对多样化任务的通用文本嵌入模型的优选。此外,Mistral-7B 模型在 LLM 增强文本嵌入技术中是最流行的基线模型。其中一个关键因素在于,即便未经任何特定训练,为 Mistral-7B 启用双向注意力机制也已展现出了显著成效。LLM2Vec的作者据此推测,Mistral 模型可能已预先经历了某种形式的双向注意力训练。
03
本文开篇即对文本语义嵌入方法进行了系统性概述,剖析了当前主流算法模型的架构特征及其发展脉络与趋势。鉴于 LLM 的迅速崛起,文章进一步在多维视角下对比了 LLM 文本嵌入技术与传统语义嵌入方法之间的显著差异。传统的文本语义嵌入技术以其高效性、广泛应用性和强大的语义表示能力为众多任务提供了有力支持,在自然语言处理领域占据重要地位。然而,该技术也面临着数据依赖性、静态性以及计算资源消耗等瓶颈问题。相比之下,LLM 通过捕捉文本上下文信息、支持多语言处理及出色的生成能力,为提升文本嵌入质量带来了新视角。随后,核心内容聚焦于 LLM 在生成文本嵌入领域的最新研究进展。当前,研究界对通用文本嵌入模型给予了高度关注,该模型旨在构建一个统一且全面的框架,以灵活应对不同长度的输入文本、多样化的下游任务、广泛的领域覆盖以及多语言处理需求。为实现 LLM 在提升文本嵌入能力上的潜力,研究者们探索了两条主要路径:一是通过合成数据生成策略来增加训练数据多样性和灵活性;二是直接将 LLM 作为核心架构,来优化通用文本嵌入的性能。本文介绍了这两条路径下的代表性模型,这些前沿方法均在多文本嵌入基准测试(MTEB)排行榜上名列前茅,在训练数据的规模上实现了显著提升,同时在数据质量与多样性方面展现了创新性的突破。这些进展不仅为文本语义嵌入技术提供了新的研究视角,也为未来自然语言处理领域的发展奠定了坚实的基础。
尽管 LLM 能生成更精确的文本语义嵌入,但也面临计算资源消耗大、数据隐私与伦理挑战以及解释性不足等难题。尤为关键的是,LLM 高度依赖于提示的质量,然而为各种任务创建精确且全面的提示不仅繁琐且耗时,同时,将提示整合到文本嵌入中会增加输入长度,这对于大型数据集和模型而言,将带来额外的计算开销。随着技术的持续进步,未来应该会出现更高效的训练算法,这将显著加速 LLM 的训练过程,进而推动其在 NLP 领域的广泛应用。同时,文本嵌入与图像、音频等其他模态嵌入的融合将成为趋势,旨在实现多模态自然语言处理任务,拓宽模型的应用范围并提升其性能。此外,为应对日益增长的模型解释性需求,未来 LLM 将朝着更强可解释性方向发展,优化提示生成算法和质量评估,确保决策过程的合理性、准确性和伦理性。随着这些技术的不断成熟,LLM 语义嵌入生成技术将在智能客服、内容创作、教育等众多领域展现更为广阔的应用前景,开启自然语言处理的新篇章。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-07-01
AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪
2026-07-01
AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。