« 10歳若返る方法 | メイン | 人気blogランキングに登録しました »

2005年02月10日

『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』

[ Category : プログラミング ]

『Blog Hacks ―プロが教えるテクニック&ツール100選』を読んでいたら、アマゾンアソシエイトやGoogle AdSenseのレポートを毎日メールで送信する『asamasid』というPerlスクリプトが紹介されていました。これには『WWW::Mechanize』というPerlモジュールが使われているようです。このWWW::Mechanizeというのを利用すると、サイトのリンクをたどったり、クッキーの保存を行ったりというブラウザの挙動をエミュレートできて、サイトの情報を自動的に取得することができるらしいです。

これを見ていたらWWW::Mechanizeに興味がわき、どこかに詳しい使い方が書いてないか調べていたんですが、こんな本があるのを見つけました。





Spidering hacks―ウェブ情報ラクラク取得テクニック101選


Kevin Hemenway, Tara Calishain
オライリー・ジャパン




この本に、「WWW::Mechanizeのことがこれでもか!というぐらい詳しく書かれている」と書かれているサイトを見つけて、この『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』という本も欲しくなりました。

そこで、これもオライリー・ジャパン発行の書籍なので、早速テキストデータを提供していただけるか尋ねたところ「既にテキスト抽出済みなので、購入履歴を送ればすぐに提供する」との返事でした。おー、やったやったぁ!!

というわけで、『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』も購入してしまいました。

この本は簡単に言うと、スパイダート呼ばれるウェブ上から自動的にコンテンツを取得するロボットを作成して、情報を効率よく利用するテクニックが書かれている本です。このようなスパイダーを作成する方法がいろいろ書かれています。プログラミング言語は主にPerlが用いられています。入門書ではないので、多少Perlの知識がないと読み進めるのは難しいかもしれません。

英語のものを翻訳したものですが、一部コードが日本人向けに書き直されているものもあって、書評を見ると非常にすばらしい翻訳だと評価が高かったです。ウェブ上の情報を効率的に取得したいと考えているのでしたら、是非おすすめです。

視覚障害者の方でテキストデータを入手された伊方は、以下のようにしてください。

1. まず、『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』)の本を購入します。こちらのページで購入すると送料無料で購入できます。

2. 身体障害者手帳の写真が貼ってあるページのコピーと本の領収書を、以下の住所に郵送またはFAXで送ります。

株式会社オライリー・ジャパン
〒160-0003 東京都新宿区本塩町7番地6 四谷ワイズビル
TEL 03-3356-5227
FAX 03-3356-5261
Email:japan@oreilly.com

データはメールで送っていただけます。他の媒体で受けとっる場合はご相談ください。

※このデータは本人のみが使用できます。必ず厳守してください。

投稿者 Dream : 2005年02月10日 21:25

この記事はあなたのお役に立ちましたか?もし気に入っていただけたのでしたら、是非人気blogランキングをクリックしてください。

トラックバック

このエントリーのトラックバックURL:
http://www.sf-dream.com/cgi/mt33/mt-tb.cgi/251

このリストは、次のエントリーを参照しています: 『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』:

» Yahoo!テレビを使って番組の検索を行うPerlスクリプト from Dreamのお好み情報箱
以前に、『Spidering hacks―ウェブ情報ラクラク取得テクニック101... [続きを読む]

トラックバック時刻: 2005年05月26日 02:04

コメント

コメントしてください




保存しますか?