Pandoc
Typical use
技术用户文档格式转换的首选命令行工具。支持数十种标记格式,并可通过 Lua 过滤器和自定义模板进行高度扩展。需要熟悉终端,且通常需要额外的依赖(例如输出 PDF 需要 LaTeX)。
Great Apps advantage
File2Text 提供可视化的 Mac 界面,内置 OCR、智能文档检测以及拖放式批量处理能力——无需使用终端、无需额外依赖、也无需配置模板。
Markdown 转换器
在 Mac 上将 PDF、DOCX、PPTX、EPUB、MOBI、XLSX、图片及超过 50 种格式转换为 Markdown 或纯文本。内置 OCR,支持监听文件夹,带 Finder 快速操作,完全离线运行。
所有数据处理均在您的设备上本地进行。无上传、无追踪、无需账号。
文本提取和 OCR 完全在您的 Mac 上运行。绝不向外部服务器或云服务上传文档。
打开应用即可立即开始转换。不需要注册,没有电子邮件验证,不需要登录。
File2Text 不包含遥测数据收集、广告 SDK,也不进行任何行为跟踪。您的使用数据完全隐私。
源文件、转换输出以及任何中间数据都保留在您的设备上,完全受您控制。
将文件或整个文件夹拖入应用程序,使用监听文件夹自动转换,或使用 Finder 快速操作右键点击
选择 Markdown 或纯文本输出,并配置提取选项,如 OCR 和表格处理方式
引擎会检测文档类型,提取嵌入文本或运行 OCR,并应用感知结构的格式化
导出清理后结构良好的输出,准备好供文档网站、Git 仓库、笔记应用程序或 AI 工作流使用
兼容主要服务和平台。
通过自动 OCR 回退功能,从原生与扫描版 PDF 中提取文本,在 Markdown 输出中保留标题、表格与页面结构。
将 DOC、DOCX 和 XLSX 文件转换为 Markdown,同时保留标题层级、列表格式和表格布局。
通过 OCR 引擎处理 PNG、JPG、TIFF、HEIC 和其他图像格式,生成可搜索、可编辑的文本。
通过将 JSON、XML、YAML、PLIST 和 CSV 转换为可读的 Markdown 或纯文本来处理这些文件。
输出可直接兼容 Hugo、Jekyll、Gatsby、Obsidian、Notion 导入和其他 Markdown 原生工具的 Markdown 文件。
生成适用于嵌入管道、检索增强生成 (RAG)、微调数据集以及提示上下文窗口的纯文本和 Markdown。
PDF, DOC/DOCX, RTF/RTFD, TXT, MD, HTML/XHTML
PPT/PPTX
EPUB, MOBI, AZW/AZW3
CSV, TSV, XLSX
PNG, JPG/JPEG, TIFF/TIF, HEIC/HEIF, BMP, GIF, WEBP, and more
EML, VCF, ICS
XML, JSON, YAML/YML, PLIST, SQL
INI, CFG, CONF, PROPERTIES, LOG
Typical use
技术用户文档格式转换的首选命令行工具。支持数十种标记格式,并可通过 Lua 过滤器和自定义模板进行高度扩展。需要熟悉终端,且通常需要额外的依赖(例如输出 PDF 需要 LaTeX)。
Great Apps advantage
File2Text 提供可视化的 Mac 界面,内置 OCR、智能文档检测以及拖放式批量处理能力——无需使用终端、无需额外依赖、也无需配置模板。
Typical use
来自微软的一个开源 Python 库和 CLI 工具,用于将 Office 文档、PDF 和图像转换为 Markdown。专为 LLM 预处理管道设计。需要 Python 3.10+ 和 pip 安装。
Great Apps advantage
File2Text 是一个无需配置的独立 Mac 应用程序。它开箱即支持更多文件格式,包含了扫描文档的 OCR,并提供一个带有原生界面支持文件夹批量处理。
Typical use
基于浏览器的服务,如 pdf2md、Mathpix 以及提供各种快速一次性转换的 OCR 网站。处理单个文件很方便,但需要将文档上传至第三方服务器。
Great Apps advantage
File2Text 在您的 Mac 本地处理所有内容,支持混合文件类型的批量操作,并且离线工作——这对机密文档和循环工作流非常重要。
“在一个下午,我们将混合包含 500 多份 PDF 和扫描文档的资料库转换为了我们内部知识库使用的 Markdown。它的 OCR 质量远超我们一直使用的在线工具。”
“File2Text 成了我们 RAG 管道中的核心部分。这些结构化的 Markdown 输出大大减少了我们在检索嵌入文档前必须进行的数据预处理。”
“作为一名自由技术文档撰稿人,我总是收到 Word 和 PDF 格式的内容。这款应用能让我把一切变成 Markdown 并在我首选的编辑器中处理并提交到 Git。”
File2Text 可处理 50 多种格式,包括 PDF、DOC/DOCX、PPT/PPTX、EPUB、MOBI、AZW、RTF、XLSX、CSV、TSV、HTML、PNG、JPG、TIFF、HEIC、BMP、GIF、WEBP、EML、VCF、ICS、XML、JSON、YAML、PLIST、SQL、INI、LOG 等等。
可以。完全支持 EPUB、MOBI、AZW 和 AZW3 电子书。该应用程序会在 Markdown 输出中保留章节结构和格式。
可以。PPT 和 PPTX 文件被转换成结构化的 Markdown,并保留幻灯片内容。
能。应用程序包含一个处理扫描版 PDF 与图片的内置 OCR 引擎。它会自动检测页面是否基于图像并切换到 OCR 提取模式。
监听文件夹让您可以选择一个目录,放入其中的任何新文件都会自动转换为 Markdown——真正解放您的双手。
在 Finder 中右键点击支持的文件并选择“转换为 Markdown”。文件将被转换,完全无需打开应用。
Pandoc 是一款面向技术用户的强大 CLI 工具。File2Text 则提供图形化 Mac 界面、内置 OCR、智能文档检测、监听文件夹、Finder 快速操作及拖放批量处理——且无需终端使用和依赖项配置。
适合。许多用户将 File2Text 的输出直接导入嵌入管道、RAG 系统以及微调工作流中。结构化的 Markdown 保留了标题、表格与列表,从而提高下游处理的质量。
不需要。所有的处理(包括 OCR)都在您的 Mac 本地执行。您可以在飞行模式或未联网设备上使用应用。
不会。File2Text 在设备端处理所有内容。没有任何云端上传、第三方 API 连接,也绝对不会发生任何数据传输。