機械学習の入門書

今まではヒルベルト空間中の構造を考えることに集中していたものの、確率空間における構造に関する考え方も知っておくのが妥当だろうと思い、いろいろ本を探した。加えて、今年のB4の学生輪読の課題本は確率論ベースのパターン理論を扱う。B4の輪読の面倒をみるように言われたものの、中身をみたところ今年のB4のレベルでは全然読み解けないレベルの内容だった。丁度よい補助資料があれば、面倒をみるための手間が省けると思った。ぶっちゃけ、機械学習の入門書、および確率空間における学習のふるまいを取り扱う入門書が欲しくなった。


もちろん、BishopのPRML本は学部生のときに購入してすでに持っていた。が、これはいまのB4にはムリなレベル・・・。また、以下に挙げる自然言語処理(NLP)向けの機械学習入門書も持っていたものの、これは学習に関するトピックを特別とりあげたものでもなかった。なお、1章で文書データの表現方法に加えて以下の基本事項についての説明がなされている: 最適化問題に関して、凸集合+凸関数、凸計画問題、等式制約付凸計画問題(ラグランジュの未定乗数法)そして不等式付凸計画問題(双対問題と鞍点の話)、確率に関して基本事項と代表的な分布、パラメータ推定に関してi.i.d.、対数尤度、最尤推定そして最大事後確率推定、最後に情報理論に関してエントロピー、KLダイバージェンス、JSダイバージェンス、自己相互情報量相互情報量。例を挙げながら解説しているので、機械学習の応用のために基本事項を大雑把に知りたい場合には、かなり使える資料となっている。3章ではk-means、混合分布よるラスタリングそしてEMアルゴリズム、4章ではナイーブベイズ識別器、SVMカーネルSVMそして対数線型モデルといった有名な手法を解説している。5章では隠れマルコフモデル(HMM)や条件付き確率場(CRF)を導入し、推定アルゴリズムの解説をしている。6章は実験の仕方、つまりデータセットの使い方と評価方法について解説している。2章は文書や単語の数学的表現についての章なので、NLPに興味がなければすっとばしても構わない内容だと思った(昔は)。ただ、bag-of-wordsやtf-idfベクトルが画像認識でも一般的になった今、NLPでの常識も知っておいた方が良いかもしれいない。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)


英語ではなく日本語の本を、というとかなり候補が絞られ、結局Mrt先生の本を購入することにした。それが今年の3月。一通り読んだものの何もメモを残していなかったので、今回ここにメモっておこうと思う。この本は学部生およびM1くらいを想定して情報理論の基礎を扱う。情報理論の基礎を扱うとは言うが、実際には機械学習に向けた内容になっている。機械学習では統計学の漸近理論と情報を数量化する情報理論は必須である。これらについて情報幾何の視点で説明を行っている。物事の関係を幾何学的に表すことで、本質を直感的に理解しようという方針。

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)


1章は情報・学習とは何かという導入からはじまり、事象のばらつきを扱うための確率変数の必要性を説いた上で、代表的な確率モデルの紹介を行っている。各確率モデルにおけるパラメーター推定方法も併記されているので、ざっと一瞥できるのは便利。2章は情報理論の基礎:情報源、通信路、符号化,情報量の説明を行う。3章は情報幾何の紹介となっており、確率空間でのモデル多様体を考え、KLダイバージェンスを距離として導入する。距離を考慮することで、Pythagorasの定理を通して直交という概念を導入できる。これがm-表現とe-表現の直交性を示す。モデル多様体を考える空間はユークリッド空間とは異なり、曲がったりねじれたりしている(曖昧だな)。しかし、このm-およびe-表現に基づき、直線や平面を考えることができるようになる。さらに、ある空間を分割することを考え、直交葉層化の説明を行う。ここでポイントなのは、KL距離は距離の3公理を満たさず(擬距離とも言う)、可換でないがために、射影を2種類定義することができる点。これがe-射影とm-射影である。距離・射影等を考えることで、アルゴリズム幾何学的にとらえることができるようになる。たとえば、最尤推定はm-射影である。なお、付録に確率を取り扱う上での最低限の必要事項がまとめられている。本来なら関数解析の基礎(コルモゴロフでも高木貞一でもスミルノフの高等数学教程でもいいけど)を勉強し終えてからルベルグ積分および確率測度の話に入るべきなのだろうが、ひとまずは、この付録を抑えておけばいい気がする(B4は)。


1-3章の導入部分が終わると、4章で付合化、5章でモデル選択、6章で混合モデルとアルゴリズム幾何学的理解という具体的な話に移っていく。4章ではエントリピー、同時エントロピー、クロスエントロピー条件付きエントロピー相互情報量といった概念を導入していくつかの符号化について説明する。このとき、離散化する際の標本化と量子化の話がでてくるが、量子化は定式化された形では提供されていない。これがちょっと残念だった。ひとまず、漸近等分割性を抑えておきたい。


4章まではこの本だけを読んでいてもするっと理解できると思うが、5・6章はそうもいかない気がした。たとえば、5章では3層パーセプトロンを例にしたモデルのパラメタ推定の話をするが、パーセプトロンの説明はほとんどない。せめて図があれば、もう少し分かりやすい気がする。6章ではブースティングの話をするが、途中の式変形の部分がさらっと書いてあるものの、初心者には分かりにくいと思った。実際、式を検算する際、CVIMのチュートリアル資料を参考にした。EMアルゴリズムの説明もあっさりしすぎている。もちろん、学習部分の幾何学的理解に重点があるので、細かい部分に焦点を当てていないという方針は理解できる。なお、5章のCramer-Raoの不等式のnはNのタイポではないかと思われた。


5章では、まず3層パーセプトロンを例に推定したパラメータと真の分布の比較を行い(過学習の一例などを示し)、真の確率法則がわからない状態でのモデル選択の難しさを説明している。つぎに、推定した確率モデルがどのくらい真の分布に近いかということを定量評価するために、推定値のばらつきについて考える。Cramer-raoの不等式、Fisher情報量そして推定量の漸近正規性について述べる。推定モデルの漸近正規性を用いて真の分布と推定モデルのKL距離の平均をもとめること、つまりは赤池情報量基準(AIC)について述べる。さらに、AICと並んで良く用いられる最小記述長(MDL)原理を説明する。MDLはデータと確率モデルの符号長の両方を考えた符号長。AICとMDLを係数をそろえて比較するとペナルティ項に差が確認できる。この差により、MDLの方が小さなモデルを選ぶ傾向があると予想される。AICとMDLは漸近正規性が成り立つことを仮定しているが、モデルが複雑でデータ数が小さい場合は成り立たない。そこで、漸近正規性が成り立たない場合に,経験分布からリサンプリングを行う方法を考える。これがブートストラップとクロスバリデーションである。ブートストラップは、おおざっぱに言えば、経験分布からパラメータの分散、偏差、分布、KL距離の平均などを、N個のデータからM個とりだし、これを複数回繰り返して計算する。クロスヴァリデーションでは、標本データを推定用部分と評価用部分に分割し、いろいろな分割の仕方で何度も推定・評価を行う。評価としては経験分布と推定モデルのKL距離の平均を用いる。


6章では、複数の分布の合成によってより複雑な確率モデルを構成する混合モデル、およびパラーメータ推定のためのEMアルゴリズム、ブースティング、バギングの仕組みを説明し、それぞれの幾何学的な解釈を述べている。たとえば、混合正規分布はe-平坦なモデルをm-表現を用いて混合していると考え、この拡張されたモデルの推定値が真の分布に近づく様子を幾何学的に説明している。


以上、情報理論から機械学習までの入門的な内容をざっとメモをした。さらに細かいことを知りたい場合は、引用されている文献を参考に自分で調べることができそう。