N-gramを利用した用語間共通属性抽出器デモ


About

googleが配布しているN-gramデータのうち、trigramだけを用いた簡易的な用語間共通属性抽出器のデモ。
今回は、フィルタリングにunigramデータ(単語の出現頻度データ)も利用しています。
用語集合拡張器を通して語の数を増やすことによって、統計的に共通する属性を抽出します。属性値ではなく、属性名を取り出せれば御の字です。
スコアは、ある用語集合における共起する語のエントロピーを求めて、それに出現頻度のlogをとったものを掛け合わせています。
N-gramからの検索にはTx: Succinct Trie Data structureを利用しています。

Let's Try!

下のテキストボックスに、スペース区切りで適当な語を二語以上(ex."日本 アメリカ"、"トヨタ ホンダ"、"ケツイ 怒首領蜂")入力して、OKボタンを押すだけ。入力は一語だけでも良いですが、結果は発散します。
入力した語群に共通すると思われる属性が、上位20件表示されます。精度はかなり低いです。trigramだけでやることの限界だと思います。

適当なn語:

結果

結果無し

To Do

参考

戻る


aihara('A`)nlp.sfc.keio.ac.jp
Datasection.co.jp and Keio University, Ishizaki-lab, NLP Group, Shunsuke Aihara.
Last modified: Mon Apr 13 15:32:06 JST 2009