■google

■最近のコメント
■最近のトラックバック
■最近の記事
■月別アーカイブ
■ブログランキング
■ブログ検索

■ブロとも申請フォーム
■リンク
■RSSフィード
スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。


スポンサー広告 | --:--:--
Rでテキストマイニング データ化~共起性(コサイン距離)の算出まで
Rテキストマイニングのようなことをやるのであれば,
言葉を集めてきた後に,
その言葉をどうデータ化するかというのは結構大変です.

そこで,今回はarulesというライブラリを使って,
言葉を0-1のデータに変換する作業を紹介します.

arulesというのは,
相関ルールでパッケージですが,その応用です.
(相関ルール:買い物カゴに,どういった商品の組み合わせが多いか)


例えば、
どこかの掲示板に以下のように書き込みがあったとします.

Aさん:今日,統計の授業でRを習ったよ.
Bさん:SやRは便利で使いやすい統計パッケージだよね.
Cさん:Rほどグラフィックに優れているものはないよ.
Dさん:S?R?って何?

まずは,茶筌か何かで品詞分解して,
動詞,名詞,形容詞だけ残します.

("今日","統計","授業","R","習う")
("S","R","便利","使いやすい","統計","パッケージ")
("R","グラフィック","優れる")
("S","R","何")


この例では、

【入力】
library(arules)
test<-list(
c("今日","統計","授業","R","習う"),
c("S","R","便利","使いやすい","統計","パッケージ"),
c("R","グラフィック","優れる"),
c("S","何","R"))
test.transaction<-as(test,"transactions")
test.matrix<-as(test.transaction,"matrix")
test.matrix

【出力】
test_matrix

(クリックすると大きくなります)

さらに,先日作成したコサイン距離の関数を使うと,
cosine.function(test.matrix)<br>
結果:
コサイン距離算出結果

(クリックすると大きくなります)
コサイン距離は1に近いほど共起性(類似度)が高いので,
例えばコサイン距離が0.71となっている,
SとR,Rと統計は関連が強いのかなといえます.

スポンサードリンク
スポンサーサイト


テキストマイニング | 10:49:12 | Trackback(0) | Comments(0)
コメントの投稿

管理者にだけ表示を許可する

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。