PDFから画像を抽出する

PDFファイルに含まれている画像を抽出するにはどうしたらいいでしょうか。

スポンサーリンク

自炊PDFからスキャンしたデータを取り出したい

電子書籍の自炊を初めた当初はPDF形式で自炊していました。

PDFであればパソコンでもタブレットでも読めて便利だろうと思ったからです。

しかし、実際にはPerfect Viewerなどの自炊本ビューワーではPDFよりCBZのほうが扱いやすいことに気がつきました(一応、Perfect ViewerではプラグインでPDFも扱えますが)。

そこでPDFファイルから画像ファイルを取り出そうとしたわけです。

PDFから画像へ「変換」ではダメ

PDFファイルの「ページ」を画像に「変換」する方法はいろいろ存在します。

しかし、PDFの各ページを画像に「変換」してみると、変換された画像ファイルの解像度がスキャン時に設定した解像度と違っていることに気が付きました。

自炊したPDFの各ページはスキャナが出力した画像そのままのはずです。

それなのに何故、スキャナが出力した画像と違うものになるのでしょうか???

PDFから変換された画像は劣化している

よくよく考えてみるとPDFから画像への「変換」では自炊PDFのような全ページが画像で構成されるPDFだけでなく、文字で構成されたPDFからも画像ファイルが得られます。

なぜかというとPDF中の文字を「一定の解像度で描画」した結果を画像にしているから・・・。

たとえ自炊PDFのような画像だけで構成されたPDFであっても「一定の解像度で描画」した結果が画像ファイルになります。

ページ内の画像を一定の解像度で描画するためには少なくとも拡大縮小の処理は必須なうえ、色の調整等もされているかもしれません。

これではページ内の画像がそのまま得られるわけはなく、変換された画像は描画の過程で劣化しています。

せっかく苦労して自炊した本をこんな方法で劣化させてはダメです。

スポンサーリンク

PDFから画像を「抽出」する

必要なのは自炊PDFを画像に「変換」することではなく、自炊PDFの各ページに格納されている画像を「抽出」することでした。

「いきなりPDF」の抽出機能を使うとPDFファイル内の画像データを抽出できます。

いきなりPDF
ソースネクスト

いきなりPDFを起動し、スタートパネルの「抽出」をクリックします。

いきなりPDF スタートパネル

「対象ファイル選択」画面で画像を抽出するPDFファイルを選択します。

対象ファイル選択

「処理中」画面に画像抽出の進捗状況が表示されます。

処理中

画像ファイルが保存されたフォルダが開きます。

拡張子TXTのファイルはPDF中のテキストデータです。

拡張子PNGが抽出された画像ファイルです。

いきなりPDF
ソースネクスト

コメント