ナレッジ検索目線でキーワード検索ロジック「形態素解析」を考えてみた
見出し画像

ナレッジ検索目線でキーワード検索ロジック「形態素解析」を考えてみた

IBiSEのポータルサイトにはキーワード検索機能が標準装備されています。ナレッジ検索の要である、キーワード検索について今回は話したいと思います。

キーワード検索は「形態素解析」を採用

IBiSEのキーワード検索は「全文検索」を採用しています。もう一歩深堀すると、全文検索技術の中の「形態素解析」を採用しています。「形態素解析」とは、入力されたキーワードを日本語意味が通じる最小単位で分ける自然言語処理の手法の一つでです。

自然言語で書かれた文を言語上で意味を持つ最小単位(=形態素)に分け、それぞれの品詞や変化などを判別することです。
例えば 「庭には二羽ニワトリがいる」という文章を
庭(名詞)/に(助詞)/は(助詞)/二(数詞)/羽(助数詞)/ニワトリ(名詞)/が(助詞)/いる(動詞)
のように形態素に分解し、意味を割り出します。
引用:Ledge.ai(https://ledge.ai/morpho_analysis_japan/)

よく比較されるのは「N-gram」方式です。「N-gram」とは、入力された文章を「N文字の文字列として区切る」という方式です。

「N-gram」と「形態素解析」はどう違う?

まず、どちらの検索方式が優秀ということは決してありません。
また、「転置インデックス」の生成方法など…といった技術的な話は私はできないので、ユーザー目線で考えてみたいと思います。

この2つの検索方式の比較で、よく例として挙げられるのが”東京都”という単語です。

まず「N-gram」で”東京都”を検索すると、下記の結果が理論上得られます。
■N-gram
検索キーワード:東京都
検索結果:東京、京都

”東京都”を”東京”と”京都”に分けて検索しています。

一方、「形態素解析」を採用しているIBiSEでの検索結果は下記です。
■形態素解析
検索キーワード:東京都
検索結果:東京都
”東京都”を”東京都”という単語として検索しています。

なぜIBiSEでは「形態素解析」を用いているのか、ナレッジ検索目線でお伝えします。

ナレッジ検索では「形態素解析」の方が優位だと考える理由


理由1:利用シーン
例えば、テレビを買い替えたい時、カタログやメーカーサイトだけでなく、評価やレビューサイト、更にはインスタやtwitterなどのSNSまで、隅々まで確認したくなりませんか?
そういうシーンでは、検索のヒット件数は多ければ多い方が情報を得られて、安心できます。
一方、ナレッジ検索のシーンはどうでしょう?
特にIBiSEのようなFAQ形式の場合、利用者のインサイトは「私の問題を解決する唯一の手段を教えて欲しい」です。
なので、ナレッジの場合は大量の情報がヒットするより、最善の1つがヒットすることを望んでいるのです。

理由2:カテゴリー検索との利用割合
当社の経験上、FAQサイトに訪れて”キーワードから探す”ユーザーと”カテゴリーから探す”ユーザーの割合は、だいたい50:50です。
カテゴリー検索とは、いわゆるパソコンのフォルダのイメージで、一覧の中から目的のFAQを探す手法です。
したがって、1つのナレッジシステムとしてIBiSEを提供するとき ”1つを探し出せる「形態素解析」のキーワード検索””一覧で探せるカテゴリー検索”の2つが実装されていることで、バランスが良くなりユーザービリティが向上すると考えたためです。

まとめ

私も長年ナレッジシステムに携わっていますが、お客様のナレッジ利用方法によっては「N-gram方式」の方が向いていると感じることも正直あります。
ですので、今後も我々はナレッジソリューションの会社として、最適な検索方式を模索しつづけ、お客様に提供し続けたいと考えております。


最後まで読んでいただき、ありがとうございました。Twitterでもシェアしていただけますと、とても嬉しいです!

嬉しいです!また見てくださいね!
株式会社PRAZNAと申します。FAQページや問い合わせフォームを誰でも簡単に作成できるカスタマーサポートツール 「OKWAVE IBiSE」(オウケイウェイヴ アイヴィス) を提供しています。 https://ibise.com/