馬場肇
Namazuシステムの構築と活用
日本語全文検索徹底ガイド
ガイド
書誌
author | 馬場肇 |
publisher | ソフトバンク |
year | 2001 |
price | 2,800 |
isbn | 7973-1641-1 |
履歴
editor | 唯野 |
2001.9.17 | 読了 |
2002.1.21 | 公開 |
2002.11.28 | 修正 |
2012.1.17 | タグ追加 |
2020.2.25 | 文字化け修正 |
コンピュータの得意なこととしての検索。これを推し進めたひとつの発展形が全文検索システムといっていいだろう。本書では冒頭で「ガイドではないかたちで必要な情報を探し出すための手段としてのサーチエンジン」という説明のされ方がしているが、私などもインターネットで検索エンジンを使わない日の方が珍しいくらいなので、それ自体の余計な説明は今や不要だろう。その上で本書は既に読書ノート化している 『日本語全文検索システムの構築と活用』 の新版のような本である。内容も全体的な構成は同じであり、Namazu を中心としつつ全文検索エンジン全般に渡るトピックを仕組みや展望まで絡めて扱っている。
個人的に検索エンジンの可能性は上述の読書ノートにも記述しているように、非常に大きなものがあると思っている。ゆえに、今後も大いに注目すべきだと思うし、自分なりの活用法も追及したい。
抄録
18/19/21/52/206
処理 | 対応機能 |
リソース収集 | ロボット |
文書フィルタ | インデクサ |
インデクサ | 同上 |
検索エンジン | エンジン |
検索クライアント | UI |
全文検索システムは大きく分けてインデックスを作成するインデクサとインデックスから実際の検索を行うサーチエンジンより成る。インデックスは書籍でいうところの索引に当たる。これをあらかじめ作成しておくことで、実際の検索速度の向上(索引から探せばよい)が実現される。
その際に、インデックスは単語単位に分割されるが、これを日本語の分かち書き(形態素解析)という。Namazu はデフォルトで KAKASI を使うが、ChaSen も利用できる。
24-30
基本的な検索手法。これらは ( ) を使ってグループ化することができる。
- AND 検索 Word1 と Word2 の双方を含むもの
- OR 検索 Word1 か Word2 のいずれかを含むもの
- NOT 検索 Word1 から Word2 を含まないもの
他に以下のようなものがある。
- 部分一致検索 「coca*」で coca を含むもの
- 正規表現検索 「インタフェ[ー|イ]ス」でインタフェースとインタフェイスなど
- フレーズ検索 「"Heavey Weather"」という塊を含むもの