« サポート付きで月額5万円以上稼げなければ全額返金します | メイン | Movable Type(MT)でコメントのメールアドレスを非表示にする方法 »

2005年03月20日

画像のみのPDFからテキストデータを抽出する方法

最近インターネット上の文書とか説明書などでPDFファイルをよく見かけますね。
PDFファイルでも一番やっかいなのが、テキストデータが含まれていない画像データだけのPDFです。この場合音声読み上げすることができないので、視覚障害者には読むことができません。

しかし、PDFファイルをOCRで文字認識して文字の部分のテキストデータを得る方法があります。

この手のソフトでスクリーンリーダーでも使えてとても便利なのが、メディアドライブ株式会社から発売されている「やさしくPDF OCR v2.0 for Windows」というソフトです。このソフトを使えば多少のご認識はあるものの、なんとか画像データのみのPDFからテキストデータを得ることができます。とっても便利なので、是非使ってみてください。

やさしくPDF OCR v.2.0は、PDFファイル内に画像化されて、テキストデータとして抜き出すことのできない日本語/英語の文字を、OCR処理(文字認識)を行い、テキストデータに変換するOCRソフトです。

その他にBMPやTIFFなどの画像をOCR処理し、テキスト付きPDFファイルに変換することも可能です。やさしくPDF OCR v.2.0を使えば、文書管理/活用の基本フォーマットとなっているPDFファイルを有効に活用できます。


やさしくPDF OCR v2.0 for Windows

メディアドライブ
2005-03-11

投稿者 Dream : 2005年03月20日 10:33

この記事はあなたのお役に立ちましたか?もし気に入っていただけたのでしたら、是非人気blogランキングをクリックしてください。

メールマガジンも読んでね!!

メールマガジンを発行しています。タイトルは『すぐ使える!インターネット100倍活用テクニック』

生活に役立つ便利なサイトの紹介、目的の情報を適格に探し出すテクニックから最近話題のブログやアフィリエイトの話題など、インターネットを快適に使いこなすテクニックを分かりやすく解説するという内容です。あなたのインターネットライフが劇的に変化しますよ!!是非購読してください。

すぐ使える!インターネット100倍活用テクニック (まぐまぐマガジンID:0000118229)

メールマガジン登録

メールアドレス:

トラックバック

このエントリーのトラックバックURL:
http://www.sf-dream.com/cgi/mt33/mt-tb.cgi/279

このリストは、次のエントリーを参照しています: 画像のみのPDFからテキストデータを抽出する方法:

» セキュリティのかかったPDFファイルからテキストを抽出する方法 from Dreamのお好み情報箱
Adobe社のアクセシビリティ対応とスクリーンリーダーがこれに対応したことより、... [続きを読む]

トラックバック時刻: 2005年04月16日 16:28

コメント

Acrobat7.0(readerじゃないやつ)にはOCR機能として読んで!ココがつくようです。
価格の問題はありますけどね。

はてなで、方向性はちょっと違いますが、セキュリティ付きPDFをどうにかしてtxtにしたいっていう話題も出ています。http://www.hatena.ne.jp/1110632462

投稿者 itochan : 2005年03月20日 18:22

こんにちは。

下記のソフトでセキュリティのかかったPDFからテキスト抽出ができるみたいです。

http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html#download」

上記のページから
・xdoc2txt 1.14 ( d2txt114.lzh /98KB )
・cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB )

この二つのファイルをダウンロードします。

あとは、Altair for Windows
http://www.normanet.ne.jp/~altair/
でもセキュリティのかかったものでも読めることがあります。駄目な場合もあるんですけど。

パスワードのかかったものでもAcrobatで解除すればテキスト抽出できるんですね。このためだけに買うのは高いような気がしますけど…。

投稿者 Dream : 2005年03月20日 21:36

コメントしてください




保存しますか?


     
人気のエントリー
フリーのMP3編集ソフト「AudioEditor」の使い方
セキュリティのかかったPDFファイルからテキストを抽出する方法
着うた作成に関する質問と回答
DOSからUSBメモリやUSB HDDを使う方法
HD-120U2が認識しない
スピリチュアル・カウンセラー江原 啓之(えはら ひろゆき)について
ドコモ フォーマ ラクラクホン FOMA F880iES
雨の日の白杖歩行に、「手に持たずにさせる傘」
無料で電話をかける方法
解決:HD-120U2が認識しない