← Great Apps
File2Text

File2Text

Markdown変換

PDF、DOCX、XLSX、画像など25以上の形式をMacでMarkdownまたはテキストへ変換。OCR内蔵、バッチ処理、完全オフライン。

100%オフライン データ収集なし 無料版あり Mac App Store
Mac App Storeでダウンロード
Utilities macOS

プライバシーとセキュリティ

すべてのデータ処理はお使いのデバイス上でローカルに行われます。アップロード、追跡、アカウント不要。

完全オフライン処理

テキスト抽出とOCRは、すべてMac上で実行されます。ドキュメントが外部サーバーまたはクラウドサービスにアップロードされることはありません。

アカウントや登録不要

アプリを開いてすぐに変換を開始します。サインアップ、メール認証、ログインは必要ありません。

トラッキングやアナリティクスなし

File2Textには、テレメトリ、広告SDK、または行動追跡は含まれていません。あなたの使用データはプライベートに保たれます。

完全なデータコントロール

ソースファイル、変換された出力、およびすべての中間データは、あなたの完全な管理下にあるデバイス上に残ります。

機能

スマートドキュメント検出
契約書、請求書、銀行取引明細書、レポート、マニュアルを認識し、調整された抽出ルールを適用します。
ハイブリッドテキスト抽出
可能な場合は埋め込みテキストを抽出し、スキャンされたページで高精度 OCR を実行し、ページジオメトリを分析して、見出し、リスト、テーブル、および列をそのまま保持します。
高度なフォーマットエンジン
適切な Markdown 見出し、箇条書き/番号付きリスト、コードブロック、強調を生成し、複雑なテーブル (財務テーブルも含む) をクリーンな Markdown テーブルに変換します。
バッチ処理
フォルダー全体をドラッグアンドドロップするか、ファイルの種類を組み合わせて、最大限の生産性を実現します。
監視フォルダー
フォルダーを選択すると、そこに追加されたすべての新しいファイルが自動的に変換されます。
Finder クイックアクション
Finder でサポートされているファイルを右クリックし、[Markdown に変換] を選択します。アプリを開く必要はありません。
電子書籍のサポート
EPUB、MOBI、AZW、AZW3 電子書籍を編集可能な Markdown ドラフトに変換します。
プレゼンテーションのサポート
PPT および PPTX プレゼンテーションを、スライドコンテンツが保持された構造化 Markdown に変換します。
プライバシーバイデザイン
すべての処理は 100% ローカルで行われます。アップロード、追跡、アカウント、インターネットは必要ありません。

使い方

1

ステップ 1

ファイルまたはフォルダー全体をアプリにドロップするか、Watch Folderを使用して自動変換するか、FinderでQuick Actionを右クリックします

2

ステップ 2

Markdownまたはプレーンテキストの出力を選択し、OCRやテーブル処理などの抽出オプションを構成します

3

ステップ 3

エンジンはドキュメントタイプを検出し、埋め込まれたテキストを抽出するか、OCRを実行し、構造を認識したフォーマットを適用します

4

ステップ 4

ドキュメントサイト、Gitリポジトリ、ノートアプリ、またはAIワークフローで使用できる、クリーンで構造化された出力をエクスポートします

活用例

AIおよびLLMパイプライン向けのドキュメント準備
PDF、Wordドキュメント、およびスキャンされた画像を、大規模言語モデルがクリーンに取り込むことができる構造化Markdownに変換し、トークンの無駄を削減し、RAGシステムの検索精度を向上させます。
レガシードキュメントをMarkdownリポジトリに移行
Wordファイル、RTF、およびPDFのライブラリをバージョン管理されたMarkdownに変換し、テクニカルチームがコードとともにGitでドキュメントを管理できるようにします。
テキストをスキャンしたドキュメントや画像から抽出します。 日本語に翻訳します。製品名や技術用語(PDF、CSV、API、CRM、LLM、OCR、CLIなど)は英語のままにしてください。翻訳のみを返してください。
組み込みのOCRエンジンを使用して、外部OCRサービスに依存せずに、スキャンされた領収書、契約書、レポート、および写真からテキストを抽出します。
eBooksを編集可能なMarkdownに変換します。
EPUB、MOBI、およびAZW電子書籍をMarkdownドラフトに変換して、編集、注釈付け、または異なる形式での再公開を行います。
プレゼンテーションからコンテンツを抽出
PPTおよびPPTXスライドデッキを構造化されたMarkdownに変換して、ドキュメント、会議議事録、またはコンテンツの再利用を行います。

対応するソースとプロバイダー

主要なメールクライアント、クラウドサービス、データソースすべてに対応。

PDFドキュメント

ネイティブおよびスキャンされたPDFからテキストを抽出し、自動OCRフォールバックを使用して、見出し、テーブル、およびページ構造をMarkdown出力に保持します。

Microsoft Officeファイル

DOC、DOCX、およびXLSXファイルをMarkdownに変換し、見出しの階層、リストのフォーマット、およびテーブルのレイアウトを保持します。

画像とスキャンページ

OCRエンジンを介してPNG、JPG、TIFF、HEIC、およびその他の画像形式を処理し、検索可能で編集可能なテキストを生成します。

構造化データ形式

JSON、XML、YAML、PLIST、およびCSVファイルを処理し、読みやすいMarkdown表現またはクリーンなプレーンテキストに変換します。

静的サイトジェネレーターとノートアプリ

Hugo、Jekyll、Gatsby、Obsidian、Notionインポート、およびその他のMarkdownネイティブツールと直接互換性のあるMarkdownを出力します。

AIおよびLLMツールチェーン

埋め込みパイプライン、検索拡張生成、ファインチューニングデータセット、およびプロンプトコンテキストウィンドウに適したプレーンテキストおよびMarkdownを生成します。

対応フォーマット

Documents

PDF, DOC/DOCX, RTF/RTFD, TXT, MD, HTML/XHTML

Presentations

PPT/PPTX

eBooks

EPUB, MOBI, AZW/AZW3

Spreadsheets

CSV, TSV, XLSX

Images (with OCR)

PNG, JPG/JPEG, TIFF/TIF, HEIC/HEIF, BMP, GIF, WEBP, and more

Email & Contacts

EML, VCF, ICS

Data Files

XML, JSON, YAML/YML, PLIST, SQL

Configuration & Logs

INI, CFG, CONF, PROPERTIES, LOG

比較

Pandoc

Typical use

技術ユーザー向けのドキュメント形式変換の定番コマンドラインツール。多数のマークアップ形式をサポートし、Luaフィルターやカスタムテンプレートによる高度な拡張が可能です。ターミナルの知識が必要で、PDF出力にはLaTeXなどの追加の依存関係が必要になる場合があります。

Great Apps advantage

File2Textは、ビジュアルなMacインターフェースを備え、OCR、スマートドキュメント検出、バッチドラッグアンドドロップ機能を内蔵しています。ターミナル、依存関係、テンプレート設定は不要です。

MarkItDown(Microsoft)

Typical use

MicrosoftのオープンソースPythonライブラリおよびCLIツールで、Officeドキュメント、PDF、画像をMarkdownに変換します。LLMプリプロセッシングパイプライン用に設計されています。Python 3.10+とpipインストールが必要です。

Great Apps advantage

File2Textは、設定不要のスタンドアロンMacアプリです。より多くのファイル形式をすぐにサポートし、スキャンされたドキュメントのOCR、ネイティブインターフェースによるバッチフォルダー処理を提供します。

オンラインOCRおよび変換ツール

Typical use

pdf2md、MathpixなどのブラウザベースのサービスやさまざまなOCRサイトでは、簡単な1回限りの変換が可能です。単一ファイルには便利ですが、ドキュメントをサードパーティサーバーにアップロードする必要があります。

Great Apps advantage

File2Textは、すべての処理をMac上でローカルに行い、さまざまなファイルタイプにわたるバッチ処理をサポートし、オフラインで動作します。機密性の高いドキュメントや反復的なワークフローに不可欠です。

ユーザーの声

★★★★★

“500以上のPDFとスキャンされたドキュメントの混合アーカイブを、午後のうちに社内ナレッジベース用のMarkdownに変換しました。OCRの品質は、これまで使用していたオンラインツールよりも優れていました。”

Technical Documentation Lead
★★★★★

“File2Textは、当社のRAGパイプラインの重要な部分になりました。構造化されたMarkdown出力により、ドキュメントを検索用に埋め込む前に実行する必要があったプリプロセッシングが大幅に削減されました。”

ML Engineering Manager
★★★★★

“フリーランスのテクニカルライターとして、常にWordおよびPDF形式でコンテンツを受け取ります。このアプリを使用すると、すべてをMarkdownに変換して、好みのエディターで作業し、Gitにコミットできます。”

Freelance Technical Writer

よくある質問

File2Textはどのファイル形式をサポートしていますか?

File2Textは、PDF、DOC/DOCX、PPT/PPTX、EPUB、MOBI、AZW、RTF、XLSX、CSV、TSV、HTML、PNG、JPG、TIFF、HEIC、BMP、GIF、WEBP、EML、VCF、ICS、XML、JSON、YAML、PLIST、SQL、INI、LOGなど、50以上の形式を処理できます。

File2Textは電子書籍をMarkdownに変換できますか?

はい。EPUB、MOBI、AZW、AZW3の電子書籍は完全にサポートされています。アプリは、Markdown出力で章の構造とフォーマットを保持します。

File2Textはプレゼンテーションを変換できますか?

はい。PPTおよびPPTXファイルは、スライドコンテンツが保持された構造化Markdownに変換されます。

File2Textはスキャンされたドキュメントや画像からテキストを抽出できますか?

はい。アプリには、スキャンされたPDFおよび画像ファイルを処理するOCRエンジンが組み込まれています。ページが画像ベースである場合、自動的に検出され、OCR抽出に切り替わります。

Watch Folderとは何ですか?

Watch Folderを使用すると、ディレクトリを選択でき、そこにドロップされた新しいファイルはすべて自動的にMarkdownに変換されます。完全にハンズフリーです。

Finder Quick Actionとは何ですか?

Finderでサポートされているファイルを右クリックし、[Markdownに変換]を選択します。アプリを開かなくてもファイルが変換されます。

File2TextとPandocの違いは何ですか?

Pandocは、技術ユーザー向けの強力なCLIツールです。File2Textは、ビジュアルなMacインターフェース、内蔵OCR、スマートドキュメント検出、Watch Folder、Finder Quick Action、およびターミナルの使用や依存関係を必要としないバッチドラッグアンドドロップを提供します。

File2TextはAIおよびLLMデータ準備に適していますか?

はい。多くのユーザーがFile2Textの出力を埋め込みパイプライン、RAGシステム、およびファインチューニングワークフローに供給しています。構造化されたMarkdownは、見出し、テーブル、リストを保持し、下流の処理品質を向上させます。

File2Textはインターネット接続が必要ですか?

いいえ。OCRを含むすべての処理は、Mac上でローカルに実行されます。機内モードまたはエアギャップされたマシンでアプリを使用できます。

ドキュメントデータが外部サービスに送信されますか?

いいえ。File2Textは、すべての処理をデバイス上で実行します。クラウドへのアップロード、サードパーティAPI、およびいかなる種類のデータ送信もありません。

始めましょう

Mac App StoreからFile2Textをダウンロード。

Mac App Storeでダウンロード