« サポート付きで月額5万円以上稼げなければ全額返金します | メイン | Movable Type(MT)でコメントのメールアドレスを非表示にする方法 »
最近インターネット上の文書とか説明書などでPDFファイルをよく見かけますね。
PDFファイルでも一番やっかいなのが、テキストデータが含まれていない画像データだけのPDFです。この場合音声読み上げすることができないので、視覚障害者には読むことができません。
しかし、PDFファイルをOCRで文字認識して文字の部分のテキストデータを得る方法があります。
この手のソフトでスクリーンリーダーでも使えてとても便利なのが、メディアドライブ株式会社から発売されている「やさしくPDF OCR v2.0 for Windows」というソフトです。このソフトを使えば多少のご認識はあるものの、なんとか画像データのみのPDFからテキストデータを得ることができます。とっても便利なので、是非使ってみてください。
やさしくPDF OCR v.2.0は、PDFファイル内に画像化されて、テキストデータとして抜き出すことのできない日本語/英語の文字を、OCR処理(文字認識)を行い、テキストデータに変換するOCRソフトです。その他にBMPやTIFFなどの画像をOCR処理し、テキスト付きPDFファイルに変換することも可能です。やさしくPDF OCR v.2.0を使えば、文書管理/活用の基本フォーマットとなっているPDFファイルを有効に活用できます。
投稿者 Dream : 2005年03月20日 10:33
この記事はあなたのお役に立ちましたか?もし気に入っていただけたのでしたら、是非人気blogランキングをクリックしてください。
このエントリーのトラックバックURL:
http://www.sf-dream.com/cgi/mt33/mt-tb.cgi/279
このリストは、次のエントリーを参照しています: 画像のみのPDFからテキストデータを抽出する方法:
» セキュリティのかかったPDFファイルからテキストを抽出する方法 from Dreamのお好み情報箱
Adobe社のアクセシビリティ対応とスクリーンリーダーがこれに対応したことより、... [続きを読む]
トラックバック時刻: 2005年04月16日 16:28
Acrobat7.0(readerじゃないやつ)にはOCR機能として読んで!ココがつくようです。
価格の問題はありますけどね。
はてなで、方向性はちょっと違いますが、セキュリティ付きPDFをどうにかしてtxtにしたいっていう話題も出ています。http://www.hatena.ne.jp/1110632462
投稿者 itochan : 2005年03月20日 18:22
こんにちは。
下記のソフトでセキュリティのかかったPDFからテキスト抽出ができるみたいです。
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html#download」
上記のページから
・xdoc2txt 1.14 ( d2txt114.lzh /98KB )
・cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB )
この二つのファイルをダウンロードします。
あとは、Altair for Windows
http://www.normanet.ne.jp/~altair/
でもセキュリティのかかったものでも読めることがあります。駄目な場合もあるんですけど。
パスワードのかかったものでもAcrobatで解除すればテキスト抽出できるんですね。このためだけに買うのは高いような気がしますけど…。
投稿者 Dream : 2005年03月20日 21:36