結局の実装

結局scikit-learnの関数,アダマール積,numpy.sum(),内包表記を組み合わせ、小さなPythonモジュールを別スクリプトにまとめてimportする場合の計算が速かった。やっと現実的な計算時間で処理できるようになって一つ目の山は越えたが、もう一つ計算重そうな箇所が・・・。そこさえクリアできれば何とかなりそうだけれども・・・。ちょっと考えないと厳しい。

Xeon Phi買ってIntelCompilerでPythonビルドできたら爆速になる気がしないでもないが、Deep Learning用のマシンを買ったらそんな予算が残っているか。。。しかも、並列計算の世界ではXeon Phiは使えない子扱いされているので、理由書書いても認められるのだろうか。