MySQL5.7 InnoDB のN-gram全文検索を検証&サービス導入した
※ この記事は以前Mediumで公開した記事 の転載です
MySQL5.7・InnoDB・N-gram という環境下で全文検索の挙動やパフォーマンスについて検証を行った。FULLTEXT INDEXは以前はMyISAMでしか利用できなかったが、 5.6.4からInnoDBでのサポートが始まっていた。
InnoDBの全文検索は5.7、特に5.7.6以降でいわゆるCJK(中国語・日本語・韓国語)がN-gramで標準サポートされ始め、 CREATE TABLE文で簡単にパーサーを指定できる構文のサポート、 設定やクエリの組立で考えないといけない事が減った事で導入障壁がかなり下がっている。 ※4.1と5.0でサービス導入経験がある私の個人的な比較感想です。
FULLTEXT INDEXも他のINDEXと同様にデータ更新・削除の際にINDEXのrebuildが走るので更新時の負荷には注意が必要で、FULLTEXT INDEXの場合は「rebuild負荷が列に含まれる単語数に比例する」「rebuildでの断片化が起こりやすい」という固有の注意点もあり、「件数が多い」「FULLTEXT INDEXを貼ったカラムの更新頻度が激しい」という条件が揃ったテーブルへの導入は十分な検証の上で実施した方が良さそう。
下記に書いた検証を経て開発したサービスでも導入してみたが、結論だけ書くと「(当たり前だが)用法用量さえ守れば十分使える。バックエンドのDBがMySQLなら、リッチな全文検索機構を導入する前段階なんかは活用場面としてオススメできる」と感じた。
やること
国税庁が公開している法人番号データを使って検証してみる。データ件数が100万件強程度になるように東京・大阪・海外 の3種類をマージしたデータを使った。用意したデータとテーブルについてはgithubにupしている。charsetをutf8mb4にしているのは、utf8だと登録時にエラーになる文字を含んだ法人が複数存在する為。collationはデフォルトであるuft8mb4_general_ciを使用する。
|
|
今回付けたFULLTEXT INDEXは会社名検索・住所検索を想定したものにしている。
|
|
件数は↓この通り
|
|
検証環境
InnoDBのFULLTEXT INDEXに関連するパラメータは全てデフォルトのままで変更はしない。単語分割の単位は通常 innodb_ft_min_token_size
と innodb_ft_max_token_size
で設定するのだが、N-gramの場合は無視されて代わりに ngram_token_size
というパラメータの内容が適用される。デフォルト値は2なので、今回の検証では 2-gram で分割されたwordで転置インデックスが登録される。例として「富士山」というデータの場合は「富士」「士山」の2通りのwordで登録される。
|
|
INDEXの状態を確認しながら検証したいので、INFORMATION_SCHEMA INNODB_FT_INDEX_TABLE テーブルが使える準備をしておく。このテーブルはInnoDB FULLTEXT INDEXの転置インデックス管理を行う為のテーブルで、2-gramで分けられたwordとそれらに振られるID・出現頻度 などが登録される。
|
|
結果と考察
- INDEXが効かない部分一致LIKE
- FULLTEXT INDEXを使っての部分一致
の2パターンで比較してみる。全文検索モードについては、検索対象が固有名詞で自然言語による曖昧検索を行うと検索結果に含まれるノイズが増えそう=法人番号社名検索という用途には不向き という判断で、BOOLEAN MODEで厳密にマッチする検索を行う。
まず name, en_name の2カラムを対象に “コード” という文字列でLIKE検索(2カラム分のLIKE条件をORで結合)と全文検索の結果を比較してみると、前者が約1.2sec、後者が約0.2secと、全文検索によってパフォーマンスが良くなった。
|
|
同じような SELECT COUNT(*)
なクエリによる比較調査を検索対象文字列を変えつつ試してみた結果は下記の通りとなった。文字列については「2文字 or NOT」という根拠で選んで、件数と応答速度に関連があるという予想で比較してみた。
※応答速度は10回クエリを投げてみての平均値を採用している。
|
|
文字数が同じでHIT件数も限りなく近い「コード」と「佐々木」が、応答速度では「佐々木」が速い(「コード」が遅い)という結果になった。「コード」に限らず、カタカナでの全文検索は速度が落ちるという結果になった ※これについてはもうちょっと深掘りして調べてみたい。
MEMO: 全文検索結果のソートについて
- 例えばLIMITによるページングの為に結果をソートするようなケースで、適合性以外でORDER BYすると100% filesortが発生するので避ける。IDのような主キーでORDER BYしても同じ
- 全文検索結果のソートは 適合性が高い順 がデフォルトの挙動で、
MATCH AGAINST
をSELECT対象にも含めると適合性が取得でき、この適合性でソートすると速い - ↓こういうSQLを書くと速い。
ASC
だと遅くなってしまう
|
|
MEMO: FULLTEXT INDEXの挙動について
- FULLTEXT INDEXのみ付与されたカラムに、MATCH AGAINST文以外の条件指定をした場合、INDEXは効かない
- FULLTEXT INDEXのみ付与されたカラム + 他INDEXが付与されたカラム の複合条件を指定した場合、 「他INDEXが付与されたカラム」による絞込の方が効率的であってもそのINDEXは無視されて、FULLTEXT INDEXによる検索が実行される
- FULLTEXT INDEXでもカバリングインデックスとしては使えない(FULLTEXT INDEXはN-gramで分けられた単語だけが登録され、実際の値はINDEXには登録されない)