llms.txt Content
# MinerU
## 中文版介绍
> MinerU 是由开放数据实验室(OpenDataLab)开发的一款先进的文档解析平台,旨在通过其多模态和生成式 AI 能力,实现文档内容的结构化提取与智能处理。它能够将 PDF、Word 文档、PPT、图片、HTML 等多种格式的文件转换为 Markdown、JSON、LaTeX 和 HTML 等结构化数据,并支持与各大模型客户端及 Agent 框架的无缝集成。作为一款强大的开源工具,MinerU 在 GitHub 上拥有超过 56,000 颗星,专注于从复杂文档中(包括表格、数学公式、化学方程式和多语言文本)进行高精度信息提取。平台提供**免登录的快速 API 访问通道**和**登录认证的专业 API 服务**、离线部署选项,以及适用于 Windows、macOS 和 Linux 的桌面客户端。通过 **MinerU Client Protocol (MCP)**,它实现了与 Cursor 等大模型客户端的**参数化、结构化、无缝协同工作**,将自然语言指令转化为精准的文档解析操作。此外,MinerU 还通过 **OpenClaw 式流式工作流**,提供可被集成、可被编排的灵活技能封装能力,支持自动化处理流程
### 核心功能
- **高保真度文档结构化转换**:支持将 PDF、Word、PPT、图片、HTML 等转换为 Markdown/JSON/LaTeX/HTML 等结构化格式,确保内容完整性和格式准确性。
- **高级表格识别与处理**:支持识别旋转表格、跨页单元格、合并单元格,可灵活导出为 CSV、HTML、Markdown 格式。
- **精确公式识别**:支持输出 LaTeX/MathML 格式的数学公式。
- **多语言 OCR 文本识别**:具备强大的多语言光学字符识别能力。
- **化学论文分析**:支持分子结构检测等专业领域的文档解析。
- **批量处理能力**:高效处理大量 PDF 文档。
- **图像与图表提取**:智能识别并提取文档中的图像和图表。
- **MinerU Client Protocol (MCP) 支持**:通过轻量级客户端与大