OISR.ORG へようこそ 法政大学大原社会問題研究所

ウェッブ・スタイリストの生活と意見[8]
OISR-Watch1999年9月26日号

野村一夫


■オイサー・オルグは電子ナマズの夢を見るか

 八月後半はコードネーム「なまず作戦」にかかりきりでした。これは "namazu" というツールによって日本語全文検索システムを構築しようというものです。

 かねてからOISR.ORGに全文検索機能をつけたいという希望が寄せられていました。けれども、どうしてよいものか皆目見当がつかず、そのまま宿題になっていました。この初夏、元研究所員の是枝洋さんがマイクロソフトのインデックス・サーバというツールで実験を試み、ある程度の成果が得られたのですが、OISR.ORG上では不具合があったようで、すぐ実用化するというわけにはいきませんでした。

「社会問題研究リソース」第一陣の立ち上げがいったん終わった直後から本格的に研究を始め、そのさい、いっそ商用の検索サービスを使ったらどうかとも考え調べてみましたが、InfoSeekの検索サービスUltraSeekでやると百万円(1万ドキュメントの場合)かかることがわかったので断念。他のサイトのケースを調べた結果、 "namazu" がけっこういけるのではないかということになりました。すでに是枝さんがローカルで試して成功していたので、これで一も二もなく無料の "namazu" でやるということになりました。なにしろこちらに予算はないのですから。

 作業は八月下旬からとりかかりました。インストールの仕方については、是枝さんがまとめてくださった、通称「是枝メモ」をご参照ください。「レッスン」の中にあります(http://oisr.org/lesson/lesson10.html)。おおよそ、こんな感じでインストールは進みます。都合四つのツールをインストールします。 "namazu" だけでは動きません。

 しくみは次のようになっています。まずシステム全体を動かすのにPerlを組み込みます。Perlはプログラミング言語のひとつでUNIXでは標準のものです。しかしWindowsNTの場合はここから始めなければなりません。今回は "Active Perl for Win32" を組み込みました。具体的には、まず "nkf32" が漢字コードをJISに変換します。つぎに "kakasi" が日本語を分かち書きにします。ここから "namazu" のmknmzコマンドが検索用のインデックスを作成します。"namazu" はこの専用インデックスを使って検索します。そのため検索速度はきわめて高速です。

 これはみなさんもご自分のパソコンで試してみることができます。たくさん書きとめた原稿や、あちこちから取ってきたファイルの数々も、"namazu" で一気に検索して呼び出せます。何の整理もいりません。つまり「超」整理法です。野口悠紀夫『「超」整理法3』(中公新書)では「Grep検索」が推奨されていて、それはそれでいいのですが、ナマズはナマズでけっこう使えます。ただしUNIXとWindows上でしか動作せず、設定にはある程度のMS-DOSの知識が必要です。検索には "search-s for Namazu" というフリーウェアをインストールして使います。

 インターネット上で検索するために、CGI経由で "namazu" を使えるように設定して、検索画面もカスタマイズしました。インデックスの更新を手作業でやるのは大変ですから(「だれがやるんだ」というタライ回しになりがちですね)ATコマンドで自動化することにしました。ウェッブ・スタイリスト野村はNTをいじるのがほとんどはじめてでありまして、ATコマンドといわれるとビビってしまうのですが、それがオートタイマーの略らしいとわかって、ビビりが取れました。なにごとも既知のものに置き換えてしまえば、むやみに畏れる必要はないのです(ま、今だから言えるのですが・・・)。

 さて、標準の全文検索はここで終わりです。私たちはここまでを「小なまず作戦」と呼んでいます。「こなまず」と発音してください。OISR.ORGの「なまず作戦」じつは小・中・大と三段階あるのです。

 第二弾の「中なまず作戦」はソキウスの全文検索です。私の個人サイト「ソキウス」を独立して扱っているのは、これがスタッフ個人サイトで唯一外部サーバ上に置かれているものだからです(シェアテキスト・プロジェクト "honya.co.jp" にあります)。したがってインデックスは別個になります。そして、OISR.ORGのインデックスといっしょに検索してはじめて当研究所関係の全コンテンツから検索できることになります。ただし、ここはユーザーにチェックして選択してもらう仕様にしました。

 "namazu" はローカル・ディレクトリのファイルからでないとインデックスを作成できません。ですから、外部サイトの全文検索をおこなうには、インデックス作成用にいったんHTMLファイルを取りこんでおかなければなりません。これがやっかいな問題でした。「中なまず作戦」は、外部サイトを取りこんでインデックスを作成する点で、最終目標の「大なまず作戦」の先行パターンとして重要でした。つまり「中なまず」を何回も繰り返せば「大なまず」になるはずなのです。

 問題はダウンロード・ツールを何にするかでした。これはもう軒並み試してみました。UNIXサーバであれば、こういうときに使うツールはだいたい決まっていて、それについては情報もあるのですが、NTサーバ用となると、案外いいものがありません。個人的に画像をまとめてゲットしたり、サイトを丸ごと取りこんでローカルでリンクさせてゆっくりブラウズできるようにするツールはたくさんありますが、精度が高く、HTMLだけをこちらの指示通りにダウンロードしてくれるツールでなければなりません。とくに重要だった点はドメインネームをそのままディレクトリにして保存することだったのですが、そういうツールがほとんどないのです。商用のもの、窓の杜、ベクターと軒並み試用して、結局 "PageDown" にしました。フリーウェアです。これでソキウス全文検索は一応メドがつき、バッチ処理できるようにもしました。ただし、現状では手動更新のままです。私が研究所に行ったときに更新することにしています。

 さてさて、とにかく大原社研ではリクエストの要求水準が高いので、「大なまず」まで行かなくてはなりません。私自身も授業が始まると、じっくりサーバいじりできなくなることが見えていたので、そのまま「大なまず作戦」に入りました。「おおなまず」と発音してください。これは「日本の労働サイト」全部の全文検索です。OISR.ORGのメインコンテンツのひとつである「社会・労働関係リンク集」からリンクしている労働サイトを対象にして全文検索システムを構築しようというのです。こういうことこそ専門研究所公式サイトの使命であり、腕の見せ所でもありますが、とにかく気の遠くなるような試みではあります。

 まず労働サイトをひとつひとつダウンロードする設定を "PageDown" でおこないます。HTMLだけをダウンロードすればいいので、それほどハードディスクを圧迫するわけではないようです。それをもとに「日本の労働サイト」でひとつのインデックスをつくります。これが "labor" というインデックスです。この原稿執筆時点で大手36サイトが検索できます。これを「社会・労働関係リンク集」掲載の1116サイトにすれぱ一応の完成になります。ただし、全サイトをそのまま検索対象にするかどうかは考慮する必要がありますし、更新のタイミングなどについてもこれから検討しますが、こちらはかなりメンテが大変そうです。というのもダウンロードに時間がかかるのです。「小なまず」については、サーバに負担のかからない深夜にインデックスの自動更新をかけていますが、「大なまず」については、このあたりの態勢づくりが今後の課題です。

 というしだいで、私にとってはじめての「大原の夏」は終わりました。仕事のあと、スタッフの皆さんとたくさんビールを飲んだことと、緑陰テニスをしたことがいい思い出になりそうです。  いずれにしても、全文検索を整備したことで、OISR.ORGすべてのページがそのままデータベースのコンテンツになります。もちろん、きちっと設計されたほんとうのデータベースと同じようにはいきませんが、正しいオーサリングがなされてさえいれば、それなりの順序できちっとコンテンツが出てきます。ということは、これからOISR.ORG上で公開されるコンテンツはすべてデータベースになるということです。このことの意味については、そのうち書きたいと思います。

 ところで、なぜ「なまず」なんでしょうか。久しぶりにMS-DOSのコマンドを打ち込みながら、catというコマンドがあったことを思い出しました。『Lunuxハンドブック』で調べてみたらcatはファイルの出力と連結をさせるコマンドのようです。「指定したファイルの内容をまとめて出力する」とあります。全文検索というのは、じつはこの作業をさせているので、つまりキーワードに見合うテキスト部分(文字列)をファイル群の中から探して、ひとつのファイルとして出力(表示)しているわけです。だからcatなんですが、catから連想することばといえば "catfish" つまり「なまず」というわけです。これが私の推測。なかなか親しみやすいネーミングであったと思います。

 そして最後に教訓です。なまずは一日にしてなまず。いやはや、けっこう時間がかかります。

・OISR.ORG全文検索 http://oisr.org/cgi-bin/namazu.cgi

(のむらかずお・兼任研究員・社会学)

   since 1999.10.2  

OISR-Watch Columns(Table of Contents)  次のページへ

法政大学大原社会問題研究所(http://oisr.org)