微信扫码
添加专属顾问
 
                        我要投稿
探索微软开源的文档转换神器,体验跨格式转换的便利。 核心内容: 1. MarkItDown工具介绍及其GitHub高星认可 2. 支持转换的文件格式及自动OCR识别功能 3. 实际测试效果分析与MCP协议支持细节
 
                                和微信的提取文字不太一样,markitdown 项目介绍提到:会保留文档的重要结构和内容,将其以 Markdown 格式显示(比如标题、列表、表格、链接等)
实测效果有些出入...
看看实际效果
逛逛实测了一下,虽然输出结果通常清晰易读,适合人工查看,但其主要目的还是作为中间介质提供给 AI 大模型或者文本分析工具。
如果对阅读体验要求极高,格式还原效果极其严苛,markitdown 可能并不适合。
① 运行如下命令安装
pip install 'markitdown[all]'
然后你可以在命令行中直接运行,或者调用 Python API:
PDF 文件转换,左边屏是源文件,右半屏是转换后的MD,发现标题并没有保留呀?
表格类型 PDF但是如果我上传的 PDF 是下面这种表格的样式,其实得到的 Markdown 效果就比较差了。
因为这不是普通表格 PDF,有很多合并:
标准 Excel,如果是转换比较标准的 Excel 表格,效果还是不错的。左边屏是源文件:
再来看看 PPT 文件,转换的效果:
再看看一个标准的 PDF 文档,不知道是不是我操作有问题?说好的保留标题、表格样式呢...
支持 MCP
前段时间发了一个国产 OCR 开源神器的帖子,还有读者问那个 OCR 开源项目是否支持 MCP。
微软开源的这个 markitdown 支持 MCP 协议,它提供了一个轻量级的 STDIO、Streamable HTTP 和 SSE MCP 服务器,用于调用 MarkItDown。
公开了一个工具:convert_to_markdown(uri),其中 uri 可以是任何http:、https:、file:或data:URI。
pip install markitdown-mcp
运行 MCP 服务
你可以使用如下两个命令运行 MCP Server,第一个是 STDIO,第二个是 Streamable HTTP 和 SSE MCP
markitdown-mcp --http --host 127.0.0.1 --port 3001
当然如果你想在 Docker 中运行,可以参考下图中的步骤。
这样你就能在 Cursor 等 MCP 客户端重配置这个MCP 服务,流程很简单。
拿 Cusor 客户端举例子,打开设置 -> MCP -> 添加一个 MCP 服务器。这个时候把如下代码复制进去就行了,后面你就能使用这个 MCP 服务了。
{
  "mcpServers": {
    "markitdown": {
      "command": "docker",
      "args": [
"run",
"--rm",
"-i",
"-v",
"/home/user/data:/workdir",
"markitdown-mcp:latest"
      ]
    }
  }
}53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-31
有人问我会不会用 AI,我直接拿出这个 Ollama + FastGPT 项目给他看
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
 
            2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07