ホーム > 読んだ

馬場肇
Namazuシステムの構築と活用
日本語全文検索徹底ガイド

ガイド

書誌

author馬場肇
publisherソフトバンク
year2001
price2,800
isbn7973-1641-1

履歴

editor唯野
2001.9.17読了
2002.1.21公開
2002.11.28修正
2012.1.17タグ追加
2020.2.25文字化け修正

コンピュータの得意なこととしての検索。これを推し進めたひとつの発展形が全文検索システムといっていいだろう。本書では冒頭で「ガイドではないかたちで必要な情報を探し出すための手段としてのサーチエンジン」という説明のされ方がしているが、私などもインターネットで検索エンジンを使わない日の方が珍しいくらいなので、それ自体の余計な説明は今や不要だろう。その上で本書は既に読書ノート化している 『日本語全文検索システムの構築と活用』 の新版のような本である。内容も全体的な構成は同じであり、Namazu を中心としつつ全文検索エンジン全般に渡るトピックを仕組みや展望まで絡めて扱っている。

個人的に検索エンジンの可能性は上述の読書ノートにも記述しているように、非常に大きなものがあると思っている。ゆえに、今後も大いに注目すべきだと思うし、自分なりの活用法も追及したい。

抄録

18/19/21/52/206

処理対応機能
リソース収集ロボット
文書フィルタインデクサ
インデクサ同上
検索エンジンエンジン
検索クライアントUI

全文検索システムは大きく分けてインデックスを作成するインデクサとインデックスから実際の検索を行うサーチエンジンより成る。インデックスは書籍でいうところの索引に当たる。これをあらかじめ作成しておくことで、実際の検索速度の向上(索引から探せばよい)が実現される。

その際に、インデックスは単語単位に分割されるが、これを日本語の分かち書き(形態素解析)という。Namazu はデフォルトで KAKASI を使うが、ChaSen も利用できる。

24-30

基本的な検索手法。これらは ( ) を使ってグループ化することができる。

  • AND 検索 Word1 と Word2 の双方を含むもの
  • OR 検索 Word1 か Word2 のいずれかを含むもの
  • NOT 検索 Word1 から Word2 を含まないもの

他に以下のようなものがある。

  • 部分一致検索 「coca*」で coca を含むもの
  • 正規表現検索 「インタフェ[ー|イ]ス」でインタフェースとインタフェイスなど
  • フレーズ検索 「"Heavey Weather"」という塊を含むもの