N-gramを利用した用語集合拡張器デモ


About

googleが配布しているN-gramデータのうち、trigramだけを用いた簡易的な用語集合拡張のデモ。
用語集合拡張器と言うものは、google setsSEALみたいなものです。
日本語のみの対応です。手法的には言語ごとのN-gramさえあればどの言語でも適応できます。シンメトリックパターンによる共起を元に探索しています。
コーディング1時間のデータ整形24時間程度なので精度は良くはありません。
N-gramからの検索にはTx: Succinct Trie Data structureを利用しています。

Let's Try!

下のテキストボックスに、スペース区切りで適当な語を二語以上(ex."日本 アメリカ"、"トヨタ ホンダ"、"ケツイ 怒首領蜂")入力して、OKボタンを押すだけ。入力は一語だけでも良いですが、結果は発散します。
入力した語群と同じSuper Classを持つであろう語のリストが表示されます。一般的な語(ngram内で出現頻度が高い語)をクエリに入れるとノイズが増えます。

適当なn語:

結果

結果無し

To Do

参考

戻る


aihara('A`)nlp.sfc.keio.ac.jp
Datasection.co.jp and Keio University, Ishizaki-lab, NLP Group, Shunsuke Aihara.
Last modified: Mon Apr 13 15:31:50 JST 2009