微信扫码
添加专属顾问
我要投稿
减少价值实现时间:激活多模态索引就像在创建RAG索引时点击一个开关一样简单。
在非结构化数据上高性能:在复杂的文档如PDF和PowerPoint中实现卓越的检索质量,无论是文本还是图像。
全面理解:利用文本和视觉信息,获得更准确、更有上下文意识的AI响应。
简化数据集成:轻松将不同类型的数据集成到你的RAG管道中,无需广泛的预处理。
from llama_index.indices.managed.llama_cloud import LlamaCloudIndex
index = LlamaCloudIndex(
name="<index_name>",
project_name="<project_name>",
organization_id="...",
api_key="llx-..."
)
retriever = index.as_retriever(retrieve_image_nodes=True)
from llama_index.core.query_engine import CustomQueryEngine
from llama_index.multi_modal_llms.openai import OpenAIMultiModal
class MultimodalQueryEngine(CustomQueryEngine):
"""自定义多模态查询引擎。
接受一个检索器来检索一组文档节点。
还接受一个提示模板和多模态模型。
"""
qa_prompt: PromptTemplate
retriever: BaseRetriever
multi_modal_llm: OpenAIMultiModal
def__init__(self, qa_prompt: Optional[PromptTemplate] =None, **kwargs) ->None:
"""初始化。"""
super().__init__(qa_prompt=qa_prompt or QA_PROMPT, **kwargs)
defcustom_query(self, query_str: str):
# 检索文本节点
nodes = self.retriever.retrieve(query_str)
img_nodes =[n for n in nodes ifisinstance(n.node, ImageNode)]
text_nodes =[n for n in nodes ifisinstance(n.node, TextNode)]
# 从文本节点创建上下文字符串,将其转储到提示中
context_str ="\\n\\n".join(
[r.get_content(metadata_mode=MetadataMode.LLM) for r in nodes]
)
fmt_prompt = self.qa_prompt.format(context_str=context_str, query_str=query_str)
# 从格式化的文本和图像中合成答案
llm_response = self.multi_modal_llm.complete(
prompt=fmt_prompt,
image_documents=[n.node for n in img_nodes],
)
return Response(
response=str(llm_response),
source_nodes=nodes,
metadata={"text_nodes": text_nodes, "image_nodes": img_nodes},
)
return response
query_engine = MultimodalQueryEngine(
retriever=retriever, multi_modal_llm=gpt_4o
)
response = query_engine.query("Tell me about the diverse geographies which represent the production bases")
下48州(美国)
加拿大
阿拉斯加
EMENA(欧洲、中东和北非)
亚太地区
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-16
PDF解析折腾半年,最后靠这套方案搞定了
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
2026-04-21
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
2026-04-21
用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
2026-04-15
刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
2026-04-22
2026-04-01
2026-03-05
2026-02-27
2026-04-02
2026-03-11
2026-03-18
2026-03-29
2026-03-15
2026-04-09
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30