Skip to content
masao edited this page Jan 16, 2011 · 2 revisions

English documentation is available at Home.

PDFチェックツール (pdf-checker)

このツールはPDFファイルの内容等を一括でチェックするためのツールです。 現在、以下の項目をチェックして出力する機能を有しています:

  • ページ数
  • PDFのバージョン
  • (各ページについて以下)
    • ページ内に埋め込まれたテキストの文字数
    • ページに埋め込まれた画像の解像度(DPI)
    • ページに埋め込まれた画像の形式

利用方法

Javaで書かれていますので、Widnows/Mac/UnixなどOS環境によらず使えます。

バイナリーパッケージ(Zipファイル)をダウンロードして展開してそのまま使ってください。 本ツールを使うには、展開したフォルダ下からコマンドラインで下記のように指定します:

  % java -jar PdfChecker.jar ~/pdf/2010J00*.pdf
  Filename:       /home/masao/pdf/2010J0001.pdf
  PDF version:    3
  Number of pages:        4
  Encryption:     false
  Page size (1):  Rectangle: 595.0x842.0 (rot: 0 degrees)
  Image filetype: png
  DPI-X:  398
  DPI-Y:  398
  Text length:    0
  Page size (2):  Rectangle: 595.0x842.0 (rot: 0 degrees)
  Image filetype: png
  DPI-X:  398
  DPI-Y:  398
  Text length:    0
  Page size (3):  Rectangle: 595.0x842.0 (rot: 0 degrees)
  Image filetype: png
  DPI-X:  398
  DPI-Y:  398
  Text length:    0
  Page size (4):  Rectangle: 595.0x842.0 (rot: 0 degrees)
  Image filetype: png
  DPI-X:  398
  DPI-Y:  398
  .....

上記の使用例の出力では、PDFファイルのPDFバージョンが3であること、3ページからなる内容であること、暗号化等のセキュリティがかかっていないことがわかります。 このPDFファイルの各ページは「595x842」という縦サイズからなり、約400dpiの解像度の画像が、PNG形式で圧縮されて埋め込まれていることがわかります。

リンク

このツールではPDF解析のために iText ライブラリーを用い、同梱して再配布しています。iTextのソースコードおよび詳細な情報は下記のサイトから入手可能です: http://itextpdf.com/

Clone this wiki locally