← ← 首页
File2Text

File2Text

Markdown 转换器

在 Mac 上将 PDF、DOCX、PPTX、EPUB、MOBI、XLSX、图片及超过 50 种格式转换为 Markdown 或纯文本。内置 OCR,支持监听文件夹,带 Finder 快速操作,完全离线运行。

100% 离线 不收集数据 免费版本 Mac App Store
在 Mac App Store 下载
Utilities macOS

隐私与安全

所有数据处理均在您的设备上本地进行。无上传、无追踪、无需账号。

完全离线处理

文本提取和 OCR 完全在您的 Mac 上运行。绝不向外部服务器或云服务上传文档。

无需账户或注册

打开应用即可立即开始转换。不需要注册,没有电子邮件验证,不需要登录。

无分析或跟踪

File2Text 不包含遥测数据收集、广告 SDK,也不进行任何行为跟踪。您的使用数据完全隐私。

您完全控制数据

源文件、转换输出以及任何中间数据都保留在您的设备上,完全受您控制。

功能

智能文档检测
识别协议、发票、银行对账单、报告和手册——应用量身定制的提取规则。
混合文本提取
尽可能提取嵌入的文本,对扫描页面运行高精度 OCR,并分析页面几何结构以保持标题、列表、表格和列的完整。
高级格式化引擎
生成正确的 Markdown 标题、项目符号/编号列表、代码块、强调,并将复杂表格——甚至是财务表格——转换为干净的 Markdown 表格。
强大的批量处理
一次性拖放整个文件夹或混合各种文件类型,实现最高生产力。
监听文件夹 (Watch Folder)
选择一个文件夹,放入其中的每个新文件都会被自动转换——真正的解放双手。
Finder 快速操作
在 Finder 中右键单击任何支持的文件并选择转换为 Markdown——甚至不需要打开应用程序。
电子书支持
将 EPUB、MOBI、AZW 和 AZW3 电子书转换为可编辑的 Markdown 草稿。
演示文稿支持
将 PPT 和 PPTX 演示文稿转换为结构化的 Markdown,并保留幻灯片内容。
隐私至上的设计
所有的处理 100% 在本地进行。没有上传,没有跟踪,没有账户,不需要互联网连接。

工作原理

1

步骤 1

将文件或整个文件夹拖入应用程序,使用监听文件夹自动转换,或使用 Finder 快速操作右键点击

2

步骤 2

选择 Markdown 或纯文本输出,并配置提取选项,如 OCR 和表格处理方式

3

步骤 3

引擎会检测文档类型,提取嵌入文本或运行 OCR,并应用感知结构的格式化

4

步骤 4

导出清理后结构良好的输出,准备好供文档网站、Git 仓库、笔记应用程序或 AI 工作流使用

使用场景

为 AI 和 LLM 管道准备文档
将 PDF、Word 文档和扫描图片转换为大型语言模型可以干净提取的结构化 Markdown,从而减少 token 浪费并提高 RAG 系统中的检索准确性。
将旧文档迁移至 Markdown 仓库
将 Word、RTF 和 PDF 的库转换为受版本控制的 Markdown,让技术团队能在 Git 中维护代码与文档。
从扫描文档和图片提取文本
使用内置 OCR 引擎从扫描收据、合同、报告和照片中提取文字,无需依赖外部 OCR 服务。
将电子书转换为可编辑的 Markdown
将 EPUB、MOBI 和 AZW 电子书转换为 Markdown 草稿,以进行编辑、注释或以不同格式重新发布。
从演示文稿提取内容
将 PPT 和 PPTX 幻灯片转为结构化的 Markdown,以作归档、会议记录或内容再利用。

支持的提供商

兼容主要服务和平台。

PDF 文档

通过自动 OCR 回退功能,从原生与扫描版 PDF 中提取文本,在 Markdown 输出中保留标题、表格与页面结构。

Microsoft Office 文件

将 DOC、DOCX 和 XLSX 文件转换为 Markdown,同时保留标题层级、列表格式和表格布局。

图片和扫描页面

通过 OCR 引擎处理 PNG、JPG、TIFF、HEIC 和其他图像格式,生成可搜索、可编辑的文本。

结构化数据格式

通过将 JSON、XML、YAML、PLIST 和 CSV 转换为可读的 Markdown 或纯文本来处理这些文件。

静态站点生成器和笔记应用程序

输出可直接兼容 Hugo、Jekyll、Gatsby、Obsidian、Notion 导入和其他 Markdown 原生工具的 Markdown 文件。

AI 和 LLM 工具链

生成适用于嵌入管道、检索增强生成 (RAG)、微调数据集以及提示上下文窗口的纯文本和 Markdown。

支持格式

Documents

PDF, DOC/DOCX, RTF/RTFD, TXT, MD, HTML/XHTML

Presentations

PPT/PPTX

eBooks

EPUB, MOBI, AZW/AZW3

Spreadsheets

CSV, TSV, XLSX

Images (with OCR)

PNG, JPG/JPEG, TIFF/TIF, HEIC/HEIF, BMP, GIF, WEBP, and more

Email & Contacts

EML, VCF, ICS

Data Files

XML, JSON, YAML/YML, PLIST, SQL

Configuration & Logs

INI, CFG, CONF, PROPERTIES, LOG

对比

Pandoc

Typical use

技术用户文档格式转换的首选命令行工具。支持数十种标记格式,并可通过 Lua 过滤器和自定义模板进行高度扩展。需要熟悉终端,且通常需要额外的依赖(例如输出 PDF 需要 LaTeX)。

Great Apps advantage

File2Text 提供可视化的 Mac 界面,内置 OCR、智能文档检测以及拖放式批量处理能力——无需使用终端、无需额外依赖、也无需配置模板。

MarkItDown (Microsoft)

Typical use

来自微软的一个开源 Python 库和 CLI 工具,用于将 Office 文档、PDF 和图像转换为 Markdown。专为 LLM 预处理管道设计。需要 Python 3.10+ 和 pip 安装。

Great Apps advantage

File2Text 是一个无需配置的独立 Mac 应用程序。它开箱即支持更多文件格式,包含了扫描文档的 OCR,并提供一个带有原生界面支持文件夹批量处理。

在线 OCR 和转换工具

Typical use

基于浏览器的服务,如 pdf2md、Mathpix 以及提供各种快速一次性转换的 OCR 网站。处理单个文件很方便,但需要将文档上传至第三方服务器。

Great Apps advantage

File2Text 在您的 Mac 本地处理所有内容,支持混合文件类型的批量操作,并且离线工作——这对机密文档和循环工作流非常重要。

用户评价

★★★★★

“在一个下午,我们将混合包含 500 多份 PDF 和扫描文档的资料库转换为了我们内部知识库使用的 Markdown。它的 OCR 质量远超我们一直使用的在线工具。”

技术文档负责人
★★★★★

“File2Text 成了我们 RAG 管道中的核心部分。这些结构化的 Markdown 输出大大减少了我们在检索嵌入文档前必须进行的数据预处理。”

ML 工程经理
★★★★★

“作为一名自由技术文档撰稿人,我总是收到 Word 和 PDF 格式的内容。这款应用能让我把一切变成 Markdown 并在我首选的编辑器中处理并提交到 Git。”

自由技术文档撰稿人

常见问题

File2Text 支持哪些文件格式?

File2Text 可处理 50 多种格式,包括 PDF、DOC/DOCX、PPT/PPTX、EPUB、MOBI、AZW、RTF、XLSX、CSV、TSV、HTML、PNG、JPG、TIFF、HEIC、BMP、GIF、WEBP、EML、VCF、ICS、XML、JSON、YAML、PLIST、SQL、INI、LOG 等等。

File2Text 可以将电子书转换为 Markdown 吗?

可以。完全支持 EPUB、MOBI、AZW 和 AZW3 电子书。该应用程序会在 Markdown 输出中保留章节结构和格式。

File2Text 可以转换演示文稿吗?

可以。PPT 和 PPTX 文件被转换成结构化的 Markdown,并保留幻灯片内容。

File2Text 能提取扫描文档和图片中的文字吗?

能。应用程序包含一个处理扫描版 PDF 与图片的内置 OCR 引擎。它会自动检测页面是否基于图像并切换到 OCR 提取模式。

什么是监听文件夹 (Watch Folder)?

监听文件夹让您可以选择一个目录,放入其中的任何新文件都会自动转换为 Markdown——真正解放您的双手。

Finder 快速操作 (Quick Action) 是什么?

在 Finder 中右键点击支持的文件并选择“转换为 Markdown”。文件将被转换,完全无需打开应用。

File2Text 与 Pandoc 相比如何?

Pandoc 是一款面向技术用户的强大 CLI 工具。File2Text 则提供图形化 Mac 界面、内置 OCR、智能文档检测、监听文件夹、Finder 快速操作及拖放批量处理——且无需终端使用和依赖项配置。

File2Text 适合为 AI 与 LLM 准备数据吗?

适合。许多用户将 File2Text 的输出直接导入嵌入管道、RAG 系统以及微调工作流中。结构化的 Markdown 保留了标题、表格与列表,从而提高下游处理的质量。

File2Text 需要联网吗?

不需要。所有的处理(包括 OCR)都在您的 Mac 本地执行。您可以在飞行模式或未联网设备上使用应用。

我的文档数据会发送到任何外部服务吗?

不会。File2Text 在设备端处理所有内容。没有任何云端上传、第三方 API 连接,也绝对不会发生任何数据传输。

开始使用

从 Mac App Store 免费下载。

在 Mac App Store 下载