Next today

どうすれば「既知の情報」を探し出せるか(時間がかかりすぎる私の情報整理・検索方法)

 前回は、私の情報整理・検索の考えの中心となっている「溜める技術」を紹介した。今回は実際に私がどのように「既知の情報」を整理・検索しているかを説明しながら、その問題点を考えていきたいと思う。

 私の情報整理のやり方は、まずブラウザに登録されているIT系のニュースサイトを順番に閲覧し、気になった記事のテキスト文章とその記事のURLをコピーして保存する。その後「RSSリーダ」「はてなアンテナ」「WWWC」「Google News Alert」に登録してあるサイトの中から、面白そうな記事をピックアップしてやはりページのテキストとURLを保存する。つまり、とにかく面白そうな記事があったら記事の全文とURLを保存している。(ちなみにP2P todayの更新はこれと平行して行っており、P2Pと関連技術のニュースは記事のタイトルとURLだけを抜き出したものを別に作成している。)

 これらの作業を行うと、平日の場合1日で平均50本?70程度の記事が保存される。これを、「一時保存フォルダ」に3日?7日程度置いておき、最後にこれらのファイルを「年」ごとに作成したフォルダにまとめて放り込んでおく。「情報の整理」は基本的にこの時点で終わりになる。

 次にどのようにその情報を探すということだが、これも「溜める技術」で書いてあった通り、専用の検索ソフトを使用している。具体的にはジャストシステムから発売されていた
「インターネットブーメラン」というソフトだ。ブーメランは自然文で問い合わせる検索ソフトで、元々は企業の情報システムに組み込む「コンセプトペース」をベースにして作られている。ブーメランは、自然文で問い合わせるようになっているので簡単に扱えるし、あらかじめインデックスを作っているので検索結果もすぐに出る。

 「自然言語の検索エンジン」というと、拒否反応がある方もいると思う。現にある有名な情報整理法の本は「自然言語の検索ソフトは使えない」としており GREP方式の検索ソフトを勧めている。私も、もしあなたが私のように特定の分野のニュースを集めていないのであればGREP方式の検索エンジンを中心に利用された方が良いと思う。

 しかし、あなたが私のように特定分野の情報をクリッピングしているのであれば自然言語での検索ソフトとGREPでの検索エンジンとの併用をお勧めする。なぜならば、私のように特定の分野の情報のみを集めていると、複数の記事に同じ単語が何度も出てくるようになるからだ。そのため、目的の記事を探すためには正確な複数個の単語を入力しなければならない。ある程度記憶力に自信のある方ならば大丈夫かと思うが、私のような人間にはとても無理だ。(ちなみに、私のパソコンの中で「Linux」という言葉を含んでいる文章を検索したら1万件以上の記事が見つかった。)

 しかし、自然言語での検索の場合は、検索する言葉がある程度「曖昧」でも検索結果にそれほど問題はない、そのため安心して複数の検索語、あるいは文章から検索できる。また、ブーメランの場合は検索結果を順位で示してくれるため、非常にわかりやすい。現状のインターネットでの自然言語の検索エンジンはあまり使えないかもしれないが、私のようにパソコン上から「偏った情報」を検索する場合は非常に有用だ。

 このように私の情報整理・検索方法は「Webで読んだ記事を片っ端から保存し、それを専用の検索ソフトを使って検索する」という方法をとっている。さて、ここまで読んで「なんて、素晴らしい方法だ。明日から私もやってみよう」と思う人は、まずいないと思う。

 なぜならば、この方法は時間がかかって非常に面倒だからだ。私のように読んだ記事をいちいちテキストで保存していると非常に時間がかかる。しかも、読むべきWebサイトは年々確実に増えており、記事のヘッドラインを読むだけでも相当時間がかかるだろう。

 また、記事がある程度集まらないと、ブーメランなどの検索ソフトの効果はあまり無い。なぜなら、記事が百件程度であれば手動でのソート・検索で十分だし、それより多少多くともエディタについているGREP検索で十分に対応できるからだ。つまり、私がやっているような情報整理・検索方法を採用するには前もって何千件もの記事を保存しておかなければいけない。普通の人ならば、そんな苦労までして「自分のための情報検索エンジン」を作りたいとは思わないだろう。

 個人的には以前のエントリで書いたとおり、データの保存がBlogなどで自動化できれば、多少データの検索がやりやすいとは思うが、まだ技術的にも難しいだろう。私の場合は今後しばらくはテキストでの保存を続けるしかなさそうだ。

-Next today