googleが配布しているN-gramデータのうち、trigramだけを用いた簡易的な用語集合拡張のデモ。
用語集合拡張器と言うものは、google setsやSEALみたいなものです。
日本語のみの対応です。手法的には言語ごとのN-gramさえあればどの言語でも適応できます。シンメトリックパターンによる共起を元に探索しています。
コーディング1時間のデータ整形24時間程度なので精度は良くはありません。
N-gramからの検索にはTx: Succinct Trie Data structureを利用しています。
下のテキストボックスに、スペース区切りで適当な語を二語以上(ex."日本 アメリカ"、"トヨタ ホンダ"、"ケツイ 怒首領蜂")入力して、OKボタンを押すだけ。入力は一語だけでも良いですが、結果は発散します。
入力した語群と同じSuper Classを持つであろう語のリストが表示されます。一般的な語(ngram内で出現頻度が高い語)をクエリに入れるとノイズが増えます。
結果無し