わたなべいず」カテゴリーアーカイブ

「同質」「実現可能」の定義 (渡辺澄夫ベイズ理論)

以下では、$\Theta$を統計モデル統計モデル$\{p(\cdot|\theta)\}_{\theta\in \Theta}$のパラメータ集合、$\Theta_*$をKL情報量を最小にするという意味で最適なパラメータ集合とします。$\Theta_*$に含まれる任意の$\theta,\theta’$が
$$p(x|\theta)=p(x|\theta’),\hspace{5mm} x\in {\cal X}$$を満足するとき、その統計モデル$\{p(\cdot|\theta)\}_{\theta\in \Theta}$は同質であるといいます。また、
$${\mathbb E}_X\left[\left\{\log \frac{p(X|\theta_*)}{p(X|\theta)}\right\}^2\right]\leq
c{\mathbb E}_X\left[\log \frac{p(X|\theta_*)}{p(X|\theta)}\right]$$なる定数$c>0$が存在するとき、「相対的に有限な分散をもつ」といいます。命題2の1「相対的に有限な分散をもてば、同質」の証明(第3章の付録)ので、
\begin{eqnarray*}
0&=&D(q\| p(\cdot|\theta_2))-D(q\| p(\cdot|\theta_1))=\int_{\cal X}q(x)f(x,\theta_1,\theta_2)dx\\
&\geq &\gamma \int_{\cal X} q(x)f(x,\theta_1,\theta_2)^2dx\geq 0
\end{eqnarray*}なる定数$\gamma>0$が存在するので、$f(\cdot,\theta_1,\theta_2)=\log \frac{p(x|\theta_+)}{p(x|\theta)}$は関数として0となり、$\theta_1,\theta_2$が同じ分布になるとしています。

質問をいただきましたが、「関数として0」は正しくありません。正確には、「確率$q(\cdot)$に関していたるところ0」であるが正しいです(命題1を用いています)。そして、同質の定義も、確率$q(\cdot)$に関していたるところ$p(x|\theta)=p(x|\theta’)$というようにすべきです。

同様に、実現可能である$p(x|\theta)=q(x)$も「確率$q(\cdot)$に関していたるところ0」で等号が成立するというようにすべきです。

次回の改定では、修正します。

WAIC/WBICをGoogle Colabで: pystanでさくさく

「渡辺澄夫ベイズ理論 with R/Stan」に関しては、2023年9月の出版以来多くの方にお読みいただき、大変感謝しています。

2024年7月初旬に「渡辺澄夫ベイズ理論 with Python/Stan」を出版するはこびとなりました。理論面も若干加筆していますが、Pythonでの実装の手順を詳しく乗せています。WAIC/WBICは、マルコフ連鎖モンテカルロ(MCMC)の手続きが必要です。私の研究室では、MCMCの実現手段であるStanをGoogle Colab(の有料版の高い方)で走らせる人が多く、Rが得意な人でもPythonで実装する人の方が多いようです。

本書では、PythonでStanを動かす手順を詳しく乗せています。皆様のお役にたてればと考えています。疑問点などございましたら連絡してください。このサイトの記事として取り上げたいと思っています。

わたなべいず命題17の証明

命題17に関して若干の修正があります(最終的な結論には影響しません)。
まず、$h(\theta)=\log p(x|\theta)-\log p(x|\theta_*)$, $$\displaystyle d\mu(\theta)=\frac{\displaystyle p(x|\theta)^\alpha p(\theta|x_1,\ldots,x_n)d\theta}{
\displaystyle \int_\Theta p(x|\theta)^\alpha p(\theta|x_1,\ldots,x_n)d\theta}
$$ $$s_k^*(x,\alpha):=\int_\Theta |h(\theta)|^kd\mu(\theta)$$とおきます。また、ヘルダーの不等式(Cauchy-Schwarzの不等式)より、$1\leq k\leq l$について、$$s_l^*(x,\alpha)^{1/l} \leq s_k^*(x,\alpha)^{1/k}$$が成立します。したがって、
$$|s^{(k)}(x,\alpha)|\leq C_k |s_k^*(x,\alpha)|$$が成立します。テキストでは、$s_l(x,\alpha)^{1/l} \leq s_k(x,\alpha)^{1/k}$(偽)を用いて、$s_k(x,\alpha):=\int_\Theta h(\theta)^kd\mu(\theta)$に対して、$|s^{(k)}(x,\alpha)|\leq C_k |s_k(x,\alpha)|$を主張していますが、$|s^{(k)}(x,\alpha)|\leq C_k |s_k^*(x,\alpha)|$が正しいです。

ただ、そのように修正しても7章の結論には影響しません。

まえがき: 渡辺澄夫ベイズ理論の素晴らしさを多くの方に伝えたい

渡辺澄夫先生と初めてお会いしたのは、私が産総研の麻生英樹先生が主催していた研究会に呼ばれて、90分程度のセミナーで話をしたときでした。大阪大学に(専任)講師として着任した1994年の初夏で、ベイジアンネットワークの構造学習に関する内容だったと思います。そのときに、2-3分に1回くらい、終わってみると全部で20-30回くらい私に質問をされた方がいました。その方が渡辺先生でした。

渡辺先生が、「学習理論の代数幾何的方法」というタイトルで、IBIS(情報論的学習理論ワークショップ)という機械学習の研究会で講演されたのは、それから5年ほど後のことでした。私自身も当時、代数曲線暗号や平面曲線に関する論文も書いていて(J. Silverman氏との共著論文は、100件以上引用されている)、ベイズ統計学と代数幾何学はともに自信がありました。しかし、渡辺先生のIBISの話は、オリジナリティに富みすぎていて、まったく理解できませんでした。

2005-2010年あたりが、渡辺ベイズ理論が最も発展した時期で、多くの学生が渡辺研究室に入門しました。当時、私は渡辺研究室の若手の成果発表などを何度か聞きましたが、その基礎を勉強していないと理解は無理だと思いました。幸いにも、渡辺先生は2006年に『代数幾何と学習理論」(森北出版)、2009年に”Algebraic Geometry and Statistical Learning Theory” (Cambridge University Press)を出版されました。ともに、学習理論の代数幾何的な方法に関して述べた名著ですが、渡辺ベイズ理論の本質に関しては、語られていませんでした。後者の洋書に関しては、WAIC (widely applicable information criterion 広く使える(渡辺-赤池)情報量規準)に関する記述があります。

通常のベイズ統計学では、正則性(詳細は本文で定義します)を仮定していて、その場合には、サンプルを得たもとでの事後分布は正規分布になります。渡辺ベイズ理論は、代数幾何の手法を用いて、正則性を仮定しない場合の事後分布を導出する、既存のベイズ統計学の一般化になります。また、その帰結として、情報量規準であるWAICやWBIC(Widely applicable Bayesian information criterion)が導出されます。これらはAICやBICと同様の情報量規準になりますが、真の分布と統計モデルの間の関係が正則でない場合にも適用されます。そして、サンプルデータがあれば、それらの値はStanなどで容易に計算できます(本書の第2章)。

他方、2012に出版された『ベイズ統計の理論と方法』(コロナ社)は、WAICだけでなく、渡辺ベイズ理論に関する記述も含んでいます。ただ、数学の初心者を読者として想定していて、理論の詳細には触れておらず、本質を理解することが難しいと思いました。正直なところ、最初の2冊のいずれかを1年くらいかけて読んでから、『ベイズ統計の理論と方法』を読まないと、挫折しかねないと思いました。「正則でない場合は、AICやBICでなくWAICやWBICを使え」という言説を信じて使っているだけの人が大多数ではないだろうか、というような懸念もありました。

本書を執筆する決意を固めたのは、2019年に大阪大学の基礎工学研究科の集中講義で渡辺先生がいらしたときでした(大阪大学理学部に在籍していた2009年にも来ていただきました)。15コマを4日間で終えるという強行日程で、お疲れのようでしたので、毎日の講義が終わってからホテルまで、最終日は新大阪の駅まで自家用車で送りました。そのときの資料を読み返してみると、講義では、渡辺ベイズ理論の本質というよりは、ベイズ理論全般に関して語られたことが思い出されました。渡辺先生は、弱者や(優秀でない)学生に対して、難しい話を避けるなど、いたわりの気持ちをもたれますが、私が渡辺先生なら、学生が逃げようが、渡辺ベイズ理論の本質を伝えただろうと思いました。その思いが、本書にも込められています。当時、共立出版から、機械学習の数理100問シリーズの企画をしていました。そのときに、迷いもなく、編集の人に「渡辺澄夫ベイズ理論」を6巻のひとつに加えてください、と伝えました。

ただ、半年程度で完成するだろうと見込んでいた本書も、完成には1年を要しました。渡辺ベイズ理論が難解であるということは、百も承知でした。しかし、執筆を始めた頃、自分がその理論の表面しかわかってなかったことを知りました。また、これまでの渡辺先生の書籍や論文にかかれていない主張や、渡辺先生すら認識してない本質まで踏み込まないと、納得のいくものが完成しないだろうと思いました。そして、なぜかを問いながら突き詰めていくと、新たな視界が見えてくるということを、何度も繰り返していきました。渡辺ベイズ理論は、ひとつふたつの思いつきではなく、考え抜いて得られたアイデアを組み合わせて完成した、逸品であると思いました。

渡辺ベイズ理論は、正則性を仮定しない一般化を実現するために、既存のベイズ統計学に代数幾何、経験過程、ゼータ関数を適用して構成されています。これらは、線形代数や微分積分と違って、数学を専攻していないと使わない数学なので、難解と思われがちです。しかし、実際の渡辺ベイズ理論では、それらのほんの一部しか用いていません。本書は、この複雑に絡み合ったひもを解きほぐし、私と同じような時間や労力を経ずに、スムーズに理解できるようなガイドのような役割を担っています。

第1章で、事前分布・事後分布・予測分布、真のモデルと統計モデル、正則性を仮定しない一般化、指数型分布族について述べます。第2章は、本書で用いるStanなどMCMCの役割とStanの実際的な使い方について述べます。第3章では数学的な準備を、第4では正則性を仮定した議論を、第5章では情報量規準について述べます。ここまでは、通常のベイズ統計学と大きな差異はありません。第6章では、代数的集合と解析的集合、多様体、特異点とその解消、広中の定理など代数幾何の入門的なことを述べます。第7章では、状態密度の公式、事後分布の一般化、WAICの性質、Cross-Validation (CV)との等価性について述べます。第8章は、WBICと機械学習への応用について述べます。

本書は以下の特長をもつように執筆しました。
1. WAIC/WBICから学習係数の計算までの主要トピックをカバー。渡辺澄夫3部作で述べられた内容以外に、WBICやCVとの等価性など最近の成果も盛り込んでいる。
2. R/Stanによるソースコードを掲載。
3. 例を豊富に載せ、難解とされた渡辺ベイズ理論を、初学者が理解できるレベルにする。
4. 渡辺ベイズ理論の理解に必要な代数幾何の初歩を丁寧に解説(第6章)。
5. 演習問題の100問を解くことで、セルフチェックができる。

また、本書は、以下のいずれかの読者を想定しています。
1. 数理統計学に興味がある
2. WAICまたはWBICを利用したことがある
3. 線形代数と微分積分などで大学初年度程度の数学の素養がある
数学の知識として難しいことはないと思いますが、数式を読んで理解する力が必要となります。

渡辺澄夫ベイズ理論は、赤池の情報量規準、甘利の情報幾何とならぶ、日本統計学の偉業の一つで、多くの方に知っていただきたい、というのが私の願いです。

数学が苦手な方にワンポイントアドバイス
 数学が苦手という方は、「書く」習慣を身に着けてください。本書を書きながら読んでください。
 先生が教科書と同じことを板書していると、ノートを取らない人がいます。これは、学習効果を下げます。
 逆に、書きながら、目と触覚で(感覚神経と運動神経で)自分の中に入れていくと良いと思います。卒論・修論の発表会でも、数学科の先生は、理解しようとするとき、学生の発表中にメモをとりながら聞いています。
本書を読んで、数学が難しいと感じる人は、たとえば、各章の命題とその章の式をゆっくり書き写すことをすすめています。
 そのようにして頭に入れておくと、自分のものになり、どうして成立するのか、証明を考えたくなります。書き写してわからない場合は、同じことを翌日もやってみるとよいでしょう。
 これは、小平邦彦先生という昔の有名な数学者がすすめていた勉強法です(「数学の学び方」岩波書店)。書き写すだけで、ずっと身近になり、難しいと思わなくなります。

謝辞
 最後に、本書を執筆するにあたり、ご協力いただいた渡辺澄夫先生、青柳美輝先生、車谷優樹氏、大阪大学学生の新村亮介君、池尻巨拓君、久保田理士君、瀧尾竜佳君に感謝します。また、本書の立案から編集までお世話いただいた、共立出版株式会社大谷早紀氏に感謝します。