« サポート付きで月額5万円以上稼げなければ全額返金します | メイン | Movable Type(MT)でコメントのメールアドレスを非表示にする方法 »

2005年03月20日

画像のみのPDFからテキストデータを抽出する方法

最近インターネット上の文書とか説明書などでPDFファイルをよく見かけますね。
PDFファイルでも一番やっかいなのが、テキストデータが含まれていない画像データだけのPDFです。この場合音声読み上げすることができないので、視覚障害者には読むことができません。

しかし、PDFファイルをOCRで文字認識して文字の部分のテキストデータを得る方法があります。

この手のソフトでスクリーンリーダーでも使えてとても便利なのが、メディアドライブ株式会社から発売されている「やさしくPDF OCR v2.0 for Windows」というソフトです。このソフトを使えば多少のご認識はあるものの、なんとか画像データのみのPDFからテキストデータを得ることができます。とっても便利なので、是非使ってみてください。

やさしくPDF OCR v.2.0は、PDFファイル内に画像化されて、テキストデータとして抜き出すことのできない日本語/英語の文字を、OCR処理(文字認識)を行い、テキストデータに変換するOCRソフトです。

その他にBMPやTIFFなどの画像をOCR処理し、テキスト付きPDFファイルに変換することも可能です。やさしくPDF OCR v.2.0を使えば、文書管理/活用の基本フォーマットとなっているPDFファイルを有効に活用できます。


やさしくPDF OCR v2.0 for Windows

メディアドライブ
2005-03-11

投稿者 Dream : 2005年03月20日 10:33

この記事はあなたのお役に立ちましたか?もし気に入っていただけたのでしたら、是非人気blogランキングをクリックしてください。

トラックバック

このエントリーのトラックバックURL:
http://www.sf-dream.com/cgi/mt33/mt-tb.cgi/279

このリストは、次のエントリーを参照しています: 画像のみのPDFからテキストデータを抽出する方法:

» セキュリティのかかったPDFファイルからテキストを抽出する方法 from Dreamのお好み情報箱
Adobe社のアクセシビリティ対応とスクリーンリーダーがこれに対応したことより、... [続きを読む]

トラックバック時刻: 2005年04月16日 16:28

コメント

Acrobat7.0(readerじゃないやつ)にはOCR機能として読んで!ココがつくようです。
価格の問題はありますけどね。

はてなで、方向性はちょっと違いますが、セキュリティ付きPDFをどうにかしてtxtにしたいっていう話題も出ています。http://www.hatena.ne.jp/1110632462

投稿者 itochan : 2005年03月20日 18:22

こんにちは。

下記のソフトでセキュリティのかかったPDFからテキスト抽出ができるみたいです。

http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html#download」

上記のページから
・xdoc2txt 1.14 ( d2txt114.lzh /98KB )
・cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB )

この二つのファイルをダウンロードします。

あとは、Altair for Windows
http://www.normanet.ne.jp/~altair/
でもセキュリティのかかったものでも読めることがあります。駄目な場合もあるんですけど。

パスワードのかかったものでもAcrobatで解除すればテキスト抽出できるんですね。このためだけに買うのは高いような気がしますけど…。

投稿者 Dream : 2005年03月20日 21:36

コメントしてください




保存しますか?