病みつきエンジニアブログ

機械学習、Python、Scala、JavaScript、などなど

2015-05-01から1ヶ月間の記事一覧

スパースな行列のPearson相関係数

Scipyには、ピアソン相関係数を計算するための関数、scipy.stats.pearson というものがあるのですが、残念ながらスパースな行列(scipy.sparse)には対応していません。 実際、実装を見てみると(stats.py)、 mx = x.mean() my = y.mean() xm, ym = x - mx, y -…

Pandas経由でHiveQLを実行してDataFrameに簡単に入れる方法

Hive経由で集計した値を、Pandasからスムーズに使うための方法を紹介します。 "スムーズ"に、というのは、「CSVを経由しない」と言い換えてもらって大丈夫です 準備 ライブラリとして、Dropboxの PyHive と Clouderaの impyla が必要です。 PyHiveを使ってい…