googleが配布しているN-gramデータのうち、trigramだけを用いた簡易的な用語間共通属性抽出器のデモ。
今回は、フィルタリングにunigramデータ(単語の出現頻度データ)も利用しています。
用語集合拡張器を通して語の数を増やすことによって、統計的に共通する属性を抽出します。属性値ではなく、属性名を取り出せれば御の字です。
スコアは、ある用語集合における共起する語のエントロピーを求めて、それに出現頻度のlogをとったものを掛け合わせています。
N-gramからの検索にはTx: Succinct Trie Data structureを利用しています。
下のテキストボックスに、スペース区切りで適当な語を二語以上(ex."日本 アメリカ"、"トヨタ ホンダ"、"ケツイ 怒首領蜂")入力して、OKボタンを押すだけ。入力は一語だけでも良いですが、結果は発散します。
入力した語群に共通すると思われる属性が、上位20件表示されます。精度はかなり低いです。trigramだけでやることの限界だと思います。
結果無し