レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる
Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。
昨日分析したデータは、1番の人にお勧めなアイテムは104で、4.25点をつけるだろう、という予想でした。なぜこのような計算結果になったのか、なんとなく感覚をつかんでみよう。
入力に使ったCSVデータを、簡単にグラフ化してみたのがこれだ。
レコメンド対象となる1番の人は、青のグラフだ。この青のグラフのパターンに一番似ているのはどれだろう? 101〜103をぱっと見た感じ、紫(5)の人と似た傾斜だと感じると思う。また、赤(4)の人も分かりづらいけど結構似ている。102の評価は抜けているものの、101*1と103の評価は近い。
逆に、緑(2)の人とは正反対の好みを持っているようだ。グラフが逆行している。黄色(3)の人は…、あんまり関連性はなさそうだな。
というようなことを考えると、104〜107のアイテムに「何点つけそうか?」が計算できる。紫と赤の人の傾向と似てるわけだから、青の人だって同じように104に高得点をつけそうだ。また、緑の人とは逆の好みを持っているのだから、緑の人が104を酷評しているので、やはり青の人にとっては高得点に思えるであろう。というわけだ。
さて、もう少し数学的にしてみよう。もう少しだけ。
ある二人のグラフのパターンがどの程度似ているのか? というのを数値化できる。この数値化の式は少々複雑なので説明しないけど。これを相関係数と言うのだが、「全く関連性がない状態」を0、「完全に一致」を1とします。さらに、「逆の関連を持つ」つまり緑の人は相関係数がマイナスとなる。最小値は-1で、完全に逆相関。この値を-1〜1の実数として扱う。
昨日のデータの相関係数は以下の通り。目分量で考察した結果と一致しているのが分かると思います。
1 vs 1 = 1.0
1 vs 2 = -0.7642652566278799
1 vs 3 = NaN
1 vs 4 = 0.9999999999999998
1 vs 5 = 0.944911182523068
この情報を表すのが UserSimilarity ですね。ちなみに、自分自身と比較したら完全一致ですから1.0です。そして3は共通した評価が101しかないので、相関係数を計算できなかった感じです。
次に、これらを相関係数(の絶対値)順に並べ、「特に似ている人」を二人*2選び出します。まぁ、4と5の人ですね。この「似ている人たち」を表すのが UserNeighborhood です。
で、4と5の人を参考にして1の人に対してレコメンドするので、ここでレコメンド候補アイテムが絞り込めます。4または5が評価していて、かつ、1が評価していないアイテムを選び出します。その結果 104, 105, 106 となります。
104のアイテムについては、以下のように評点と相関係数、及びその積をまとめました。
user | pref | 相関係数 | pref×相関 | |
4 | 4.5 | 0.99 | 4.50 | |
5 | 4.0 | 0.94 | 3.78 | |
計 | - | 1.94 | 8.28 |
これをこのように割ると 8.28 ÷ 1.94 ≒ 4.26 です。104の予測評点は約4.26となりました。この計算はいわゆる加重平均です。重み=相関係数ですね。
他のアイテムについても同様の計算をした結果、一番予測評点が高かった104をお薦めした、というわけです。
これが、レコメンドの簡単な原理です。