Mahout
前回は 5ユーザ, 7アイテム, 21評価 という非常に小さいデータでした。さて、今回は大きめのデータを使ってみましょう。6040ユーザ, 3900アイテム, 100万評価です。 データの準備 GroupLensというラボが、評価データを公開してくれています。研究開発目的に…
んじゃ、早速Hadoopの疑似分散環境を作ってMahoutを回してみましょう。 HadoopのセットアップとMahoutの入手 まずは利用するHadoopのセットアップ。ここは本題じゃないので要点のみ。 Hadoopのバージョンは最新ではなく v0.20.2 を使いましょう。 Apache Dow…
さて、ちょっと間があきましたが。前回まで、いったんレコメンドを抜けてクラスタリングの世界をご紹介してみた訳ですが。あまりウケがよさそうじゃないのでレコメンドに戻ってみます。 そんな中でMahoutが一押しであるのは、スケーラビリティの確保に重点が…
Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。前回はこちら今度はMahoutでクラスタリング - 都元ダイスケ IT-PRESS。 準備 まずmvnの依存設定を。以前と同じようにmahout-coreは要ります。それに加…
Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。さて、前回まではMahoutで「協調フィルタリングによるレコメンデーション」を解説してきました。まだレコメンドの処理をHadoopで分散させたりしていま…
Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。さて、前回までで、実際にMahoutのレコメンデーションエンジンを動かしてみつつ、その計算原理を軽く追いかけました。今回は、機械学習全般における大…
Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。昨日分析したデータは、1番の人にお勧めなアイテムは104で、4.25点をつけるだろう、という予想でした。なぜこのような計算結果になったのか、なんとな…
Mahoutシリーズ目次(随時更新) 非分散レコメンデーション Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS (これ) レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる - 都元ダイスケ IT-PRESS 機械学習における重大…