人気ブログランキング | 話題のタグを見る

ダブルスラッシュに関連した雑記


by kozai22
カレンダー
S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

主な情報検索ツール

 前回のエントリでは「インターネットブーメラン」しかご紹介できなかったが、これ以外の情報検索ツールももちろんある。

 以下は代表的な情報検索ツールだ。自然言語検索でないものがあるが、パソコンを使ってデータを探すのには非常に有効なツールだと思う。

インターネットブーメランオススメ
DataHunter
Namazu
速捜
サーチクロスオススメ
サトリ
KWIC Finder


[参考]
持ち歩きデータの検索活用と悩み

# by kozai22 | 2004-03-03 21:46 | IT全般
 前回は、私の情報整理・検索の考えの中心となっている「溜める技術」を紹介した。今回は実際に私がどのように「既知の情報」を整理・検索しているかを説明しながら、その問題点を考えていきたいと思う。

 私の情報整理のやり方は、まずブラウザに登録されているIT系のニュースサイトを順番に閲覧し、気になった記事のテキスト文章とその記事のURLをコピーして保存する。その後「RSSリーダ」「はてなアンテナ」「WWWC」「Google News Alert」に登録してあるサイトの中から、面白そうな記事をピックアップしてやはりページのテキストとURLを保存する。つまり、とにかく面白そうな記事があったら記事の全文とURLを保存している。(ちなみにP2P todayの更新はこれと平行して行っており、P2Pと関連技術のニュースは記事のタイトルとURLだけを抜き出したものを別に作成している。)

 これらの作業を行うと、平日の場合1日で平均50本~70程度の記事が保存される。これを、「一時保存フォルダ」に3日~7日程度置いておき、最後にこれらのファイルを「年」ごとに作成したフォルダにまとめて放り込んでおく。「情報の整理」は基本的にこの時点で終わりになる。

 次にどのようにその情報を探すということだが、これも「溜める技術」で書いてあった通り、専用の検索ソフトを使用している。具体的にはジャストシステムから発売されていた
「インターネットブーメラン」というソフトだ。ブーメランは自然文で問い合わせる検索ソフトで、元々は企業の情報システムに組み込む「コンセプトペース」をベースにして作られている。ブーメランは、自然文で問い合わせるようになっているので簡単に扱えるし、あらかじめインデックスを作っているので検索結果もすぐに出る。

 「自然言語の検索エンジン」というと、拒否反応がある方もいると思う。現にある有名な情報整理法の本は「自然言語の検索ソフトは使えない」としておりGREP方式の検索ソフトを勧めている。私も、もしあなたが私のように特定の分野のニュースを集めていないのであればGREP方式の検索エンジンを中心に利用された方が良いと思う。

 しかし、あなたが私のように特定分野の情報をクリッピングしているのであれば自然言語での検索ソフトとGREPでの検索エンジンとの併用をお勧めする。なぜならば、私のように特定の分野の情報のみを集めていると、複数の記事に同じ単語が何度も出てくるようになるからだ。そのため、目的の記事を探すためには正確な複数個の単語を入力しなければならない。ある程度記憶力に自信のある方ならば大丈夫かと思うが、私のような人間にはとても無理だ。(ちなみに、私のパソコンの中で「Linux」という言葉を含んでいる文章を検索したら1万件以上の記事が見つかった。)

 しかし、自然言語での検索の場合は、検索する言葉がある程度「曖昧」でも検索結果にそれほど問題はない、そのため安心して複数の検索語、あるいは文章から検索できる。また、ブーメランの場合は検索結果を順位で示してくれるため、非常にわかりやすい。現状のインターネットでの自然言語の検索エンジンはあまり使えないかもしれないが、私のようにパソコン上から「偏った情報」を検索する場合は非常に有用だ。

 このように私の情報整理・検索方法は「Webで読んだ記事を片っ端から保存し、それを専用の検索ソフトを使って検索する」という方法をとっている。さて、ここまで読んで「なんて、素晴らしい方法だ。明日から私もやってみよう」と思う人は、まずいないと思う。

 なぜならば、この方法は時間がかかって非常に面倒だからだ。私のように読んだ記事をいちいちテキストで保存していると非常に時間がかかる。しかも、読むべきWebサイトは年々確実に増えており、記事のヘッドラインを読むだけでも相当時間がかかるだろう。

 また、記事がある程度集まらないと、ブーメランなどの検索ソフトの効果はあまり無い。なぜなら、記事が百件程度であれば手動でのソート・検索で十分だし、それより多少多くともエディタについているGREP検索で十分に対応できるからだ。つまり、私がやっているような情報整理・検索方法を採用するには前もって何千件もの記事を保存しておかなければいけない。普通の人ならば、そんな苦労までして「自分のための情報検索エンジン」を作りたいとは思わないだろう。

 個人的には以前のエントリで書いたとおり、データの保存がBlogなどで自動化できれば、多少データの検索がやりやすいとは思うが、まだ技術的にも難しいだろう。私の場合は今後しばらくはテキストでの保存を続けるしかなさそうだ。

 
# by kozai22 | 2004-03-02 22:19 | IT全般
 前回のエントリでとても参考になるコメントやトラックバックを頂いた、どうもありがとうございます。さて今回はこのコメント、トラックバックをうけて、どのようにすれば「情報」を検索・整理できるかを考えてみたいと思う。

 まずは、情報を整理するのにあたって、検索の対象となる「情報」をおおざっぱに3つに分類したいと思う。まずは、自分が知らない「未知の情報」。このような自分が今まで知らなかった「未知の情報」を調べるのにはGoogleやYahoo!といった検索エンジンを使うと思う。最近の検索エンジン(というよりもGoogle)を使えば、大概のことは調べられる。

 2点目として「監視する情報」。これは、ある事柄についてある程度の知識はあるが、そのことについてより深く知るために、自分の知っている定期的にウォッチするための情報だ。例えば、私の場合はP2Pや無線、検索技術といった情報を得るために、定期的にIT系ニュースサイトを「監視」している。

 従来は情報を定期的に監視するためには、通常のブラウジングやWWWCのようなサイトの更新チェッカを使うしかなかった。しかし、ここ最近になって次々と新しいツール(RSSやアンテナなど)が登場している。Googleなどの検索エンジンに対して目立たないかもしれないが「情報を監視」するツールは、現在のところ非常に面白いことになっている。これらのツールについては注意深く見ておく必要がある。

 最後に、自分が“1度読んだことがある”あるいは“その存在を知っている”情報である「既知の情報」だ。この情報の整理が最も難しく、みなさんも苦労されていると思う。いや、整理するだけならば簡単かもしれない。問題はどのように「探す」かだ。「監視している情報」を複数持っている方は、何千・何万ものファイルから情報を探さなければならない。これは大変だ。

 ここで、皆様は「そんな事はわかっている。それではお前はどのように情報を整理・検索をしているのか?」と思うかもしれない。ここで私がどのように「情報の整理・検索」をしているかを言う前に、まず「溜める」技術という本を紹介したい。この本はパソコンでの情報検索について書かれた本だ。詳しい内容は本書に譲るが、基本的に入手した情報は基本的に捨てない。その情報を整理せずに1つの箱(フォルダ)に入れておく。その箱から「情報」を探すというものである。

 パソコンのHDDの容量は増加しており、普通の使い方をしていればパソコンのHDDがなくなることは無いと思う。そのため、基本的にデータを捨てることはない、ここまでは良いと思う。だが「整理せずに1つの箱に情報を入れておくだけでは、情報を探す時にどうするのか?」という疑問があると思う。恐らく手動で目的の情報を検索しようとすれば、途方もない時間がかかるだろう。

 この問題を解決するために、情報検索は手動ではなくパソコン用の検索ソフトを利用する。このパソコン用のデータ検索ソフトもGoogleなどの検索エンジンに比べて非常に目立たない存在だ。しかし、個人的にはこれらのパソコン用の情報検索ソフトこそが「パソコンでの情報整理」の鍵となると思う。

 次回は、パソコン用の検索ソフトを使った私の「情報整理・検索の方法」と、その問題点を見ていきながら、次代の情報整理・検索方法について考えてみたいと思う。
# by kozai22 | 2004-03-01 22:11 | IT全般
 それにしてもBlogの更新は面倒だ。大手のBlogであれば、読者からのコメントやトラックバックが励みになると思うが、(私のBlogのような)訪問者が少なく、トラックバックやコメントも少ないサイトは文章を打つのが空しくなってくる…。一体どうして時間を割いてこんなクダラナイ文章を打っているんだろう…。

 このように思っているのは私だけでは無いはずだ、その証拠に昨日のエントリでも紹介した通り「Blogの3分の2は2ヶ月間更新がない」。とりあえずテスト的なエントリをしたものの、発信する情報が無かったり、発信する情報があっても、それを投稿する時間が無いのだろう。Blogを訪れた人に向かって自分の考えを、わかりやすく、おもしろく、コンパクトに説明するのは「面倒」だし「難しい」。

 個人的にはこのような「他人に読ませるのが目的のBlog」だけでなくとも、「自分のためのBlog」があっても良いと思う。例えば、自分の見たページのURLと内容を自動的に記録し、その「ログ」を閲覧するようなページだ。これならば、様々なWebページを見るだけで自動的にBlogが更新される。

 「確かに自動的にページは更新されると思うが、そんなページを何に使うのか?」という当然の疑問が出てくるだろう。例えば、自分が読んだWebページの中でもう一度見たいページを検索するのに使うのはどうだろう? 既存の検索エンジンは自分が知らない「未知のWebページ」を探すのには優れているが、自分が以前見たページを探すのにはあまり向いていない。もちろんページや記事のタイトルがわかればすぐに検索できるだろうが、記憶が曖昧な場合はページを検索するのは非常に難しい。そこで、自分だけの検索エンジンのための「ログ」としてBlogのようなツールを活用できれば面白いだろう。(もっとも、「はてなダイアリー」やBlogでニュースのリンクをつけている人は、このような目的でページを作成しているようにも思える。)

 Blogというと、どうしても他人に「読ませる」ことを意識したページになるとことが多い。しかし、あくまで「自分向けのページ」を作れるようなBlogツールがそろそろ出来ても良いと思う。
# by kozai22 | 2004-02-27 21:11 | IT全般
 Blog(Webログ)という言葉の定義は何なのか? ネット上ではずいぶん前から色々と議論されてきたが、どうもはっきりした答えが出てこない。毎日更新するのがBlogなのか? ただの日記はBlogではないのか? サービスプロバイダーが提供するツールを使わなければBlogとは言えないのか? これらの基本的な解答にも説明する人によってBlogの定義が微妙に違っている。どうも正確なBlogという言葉の定義がはっきりとはしない。


 このような「言葉」の定義を巡る議論は、本当はどうでも良いことなんだろう。「議論」をしている人にとっては、良い時間潰しにはなるとは思うが、それを使うユーザは「どうでもいい」と思っているのだろう。私も現状ではBlogは「便利な日記cgi」で良いと思う。

 ただ、これだけ「Blog」が盛り上がっているのには、なんらかの理由があると思う。一番の理由としてテンプレートがある程度決まっているので、「(私も含めた)htmlを知らない人間」でも使え、Webページ作成という雑務に負担をかけずに自分の作業に集中できる。という点があると思う。しかし、私はもう一つの理由として、Blogには『更新』という強迫観念を生み出す力があるのだと考えている。

 通常のWebページならば、自分のコンテンツをナビゲートする「トップページ」はある程度は更新するとしても、その他のページは基本的に1度ページを完成させてしまえば、そのページの情報を更新することはあまりない。

 ところが、Blogの場合は「更新」することが前提となっている。トップページは新しい「記事」があれば自動的に更新される。これは通常のWebページよりもトップページが頻繁に更新されることを表していると思う。さらに記事の作成した記事の1つ々は、コメントやトラックバックがあるため、自分が投稿した記事に次々と意見・情報が追加され、作り終わった記事にも「更新」される。

 またほとんどBlogに「カレンダー」がついている事も興味深い。このカレンダーを見ることによって、Blogの作者がどれだけ「更新」しているのか(あるいはサボッているか)かがひと目でわかってしまう。またRSSも、どのBlogが「更新」したかを知るためのものだ。

 このようにBlogについてるツールは「更新」を助け、さらに「更新」という強迫観念を生み出すツールが備わっている。基本的な事だがBlogが今までのWebページと大きく違うのは、現状ではこの点だと思う。

 とは言えBlogの3分の2は2カ月間も更新が無いらしい…。どれだけ便利なツールがあっても、最終的に「記事」を書くのは自分だ。やはり毎日、継続して「情報」を作るのは難しいのだろう。
# by kozai22 | 2004-02-26 21:01 | IT全般