markitdownを活用した Markdown 変換・処理ユーティリティツール集です。
このリポジトリには、ドキュメント処理に役立つ複数の Python 製ユーティリティが含まれています。markitdown を利用した HTML→Markdown 変換や、Markdown ファイルの結合など、様々なシナリオで活用できるツールを提供しています。
このツールキットは以下のモジュールで構成されています:
- HTML to Markdown コンバーター - HTML ファイルを Markdown に変換するツール
- Markdown マージツール - 複数の Markdown ファイルを結合するツール
- Python 3.6 以上
- HTML→Markdown 変換にはmarkitdownが必要(詳細は各ツールの README を参照)
以下の手順でこのリポジトリを使い始めることができます:
git clone https://github.com/tomotakashimizu/markitdown-toolkit.git
cd markitdown-toolkit
pip install 'markitdown[all]~=0.1.0a1'
HTML を Markdown に変換:
python html_to_markdown/html_to_markdown.py example.html
複数の Markdown ファイルを結合:
python markdown_merge/merge_n_markdown.py markdown_dir/
各ツールの詳細な使い方については、それぞれのディレクトリ内の README をご参照ください:
このツールキットは MIT ライセンスで公開されています。ただし、HTML→Markdown 変換の機能では、Microsoft が開発しているmarkitdownライブラリを使用しています。
markitdown は MIT ライセンスで公開されており、帰属表示(attribution)が必要です。詳細はmarkitdown のリポジトリを参照してください。
markitdown は MIT ライセンスで公開されています。これは比較的寛容なライセンスで、以下の条件を満たす限り、商用利用を含む様々な用途に利用できます:
- 著作権表示とライセンス表示を含める
- 同じライセンスの下で再配布する必要はない
当ツールキットは markitdown のラッパーとして機能する部分を含みますが、markitdown そのものを再配布するものではありません。