2020-12-23 統計学の基礎¶

メモ¶

勉強会動画: 2020-12-23統計学オンライン勉強会(YouTubeで限定公開)
GitHubのリポジトリ: studygroup/statistics
サイトへのリンク(同内容)

注意¶

録画はじめた?

忘れる前に説明¶

今日: 「統計学の基礎」と称して基礎の部分と用語を整理する
今後: あとで説明する「純粋統計学」の部分を議論する
- 特にプログラムによるいろいろな検証に興味がある

統計学の基礎¶

コメントまとめ+TODO¶

【「確率で記述できるのか」問題】のところはもっと議論 (説明) が必要
- 何を意図しているか具体例もつける
- 議論している動画を見直して質問+応答の形で説明を追加する
【理論統計学】の定義
- 【純粋統計学】との区別はいいとして【応用統計学】との区別がそれほど明らかではない
- よい分類・よい言葉は引き続き考える

はじめに¶

ここでは統計学の細々とした話の前に統計学の設定に関してまとめます. 私の観測範囲ではあまり見かけないものの, 統計学をきちんと理解し応用する上で大事だと思ったことを書いています.

基本文献¶

次の文献を基本に据えています.

赤池弘次, エントロピーとモデルの尤度 \cite{HirotsuguAkaike1}
赤池弘次, 統計的推論のパラダイムの変遷について \cite{HirotsuguAkaike2}
渡辺澄夫, 統計学入門「主義」を心配するみなさまに
渡辺澄夫『ベイズ統計の理論と方法』 \cite{SumioWatanabe3}.

まずは「渡辺澄夫, 統計学入門「主義」を心配するみなさまに」を読むといいでしょう. 短かさもあるので次に赤池の 2 論文を読んでみてください. 最後の教科書はそれほど簡単ではありません. この講座はこの本を読みこなすための私の基礎体力作りも兼ねて内容を整備しています.

上記文献に書いていないことからはじめる¶

私がこの講座を作ろうと思ったきっかけの 1 つでもあります. 私にとっての統計学の出発点で, それは統計学の前提と確率論との関係です. 実質的に確率論・統計学という言葉にはいくつかの使い分けがあり, それがおざなりなせいで余計な混乱を生んでいるように思います. これを私の視点で整理することからはじめます. まずは確率論と統計学の整理をしましょう.

確率論と統計学を無理やり分類する¶

期待値・平均・分散・エントロピーなど確率論と統計学に共通する概念があり, 少なくとも統計学では確率論の諸概念を使うため厳密にわけても大した意味はありません. しかし尤度のように確率論ではあまり出てこない一方で統計学で基本的な概念もありますし, 言葉を用意しておくと便利なように思います. この講座では次のような大まかな分類をした上で呼び方を決めます.

確率論: 数学の 1 分野の確率論を指す. 現代的な公理的確率論と言ってもいい.
純粋統計学: 尤度の数学的性質のように, 統計学の中で純粋に数学の問題として決着がつく・つけられる・つけるべきテーマを扱う分野を指す. 確率論と重なる部分もある.
- 極限の議論は数学的な山場の 1 つ
- プログラムを駆使した有限部分の議論がもう 1 つの山場
- TODO 理論統計学ときちんと区別できるような特徴づけを探し, 対応する議論・説明をつけていく
理論統計学: 応用に使うことを意識した統計学の理論研究を指す. 上述の赤池論文のような内容をイメージしている. 応用統計学に関わる理論といってもいいかもしれない.
- TODO 必要に応じて細分する
応用統計学: 実データの分析を指す. 「統計が使えるようになりたい」というときの統計.

この中で確率論と純粋統計学は純粋に数学なので「数学」という以上の説明・意味はありません. 純粋統計学は数理統計学と呼ぶ方がいいかもしれませんが, これは定義・守備範囲のはっきりしない既存の「数理統計学」とまぎらわしいので別の言葉をあてました. 応用統計学もそれほど守備範囲のイメージに問題はないでしょう. 問題は理論統計学です.

理論統計学は応用統計学に関わる議論と書いた以上, 応用統計学と重なる部分があります. 理論統計学でイメージしたのは理論物理です. 理論物理ではメインタスクとして, 例えば未知の現象を探るための理論を作ることや, 既存の実験事実を説明するための理論整備があります. 特に前者は実際の実験データを離れて理論物理学者同士が物理の理論を検討します. 「数学」ではなく統計学の議論をするという意味で, 純粋統計学とわけたかったのがここでの分類の意図です. そして「哲学」を含めてよく議論が紛糾しているのがこの理論統計学であろう, という気分を込めています.

確率論を大まかに¶

確率論は完全に数学です. 適当に確率と呼ばれる概念を設定したうえで, それが「正しい前提」で議論を進めます.

例えば「サイコロを振ったとき, 各目の出る確率は等しいとする」と仮定して批判的に吟味せずに進めます. 確率とは何か, といった問題も一切気にしません.

統計学を大まかに¶

統計学についてはいろいろな混乱があるようです. それを見ている限り, まずは次のような分類に注意するといいように思います.

応用的な統計学: 実データの分析
- 記述統計
- 推測統計
理論的な統計学
- 思考実験を含む統計学の「理論」の議論, 理論統計学
- 数学としての統計学, 純粋統計学

あくまでここでの分類で一般的な分類ではありません.

まず大雑把な話からはじめます. 前者の応用面が「本来の統計学」だろうと思います. 英語の statistics は国 state の状態を考えるところから来ていて, 特に記述統計が応用統計の原点でしょう. 推測統計, そして理論研究のモチベーションもあくまでここから来るはずです. 極端に言えば記述統計は全数調査がもとにあり, 統計学の適用対象の広がりに合わせて記述統計だけでは議論しきれない部分が出てきます. その部分を埋める適切な推論法が必要で, それが推測統計の理論と実践にあたります. 純粋に数学的な理論とそれを統計学としてどう解釈するかが重要で, この解釈に関わる理論整備が先の理論統計学の仕事の 1 つです.

統計学の暗黙の前提¶

図も入っていて明確なので渡辺さんの次のスライドを参考にしましょう.

渡辺澄夫, 統計学入門「主義」を心配するみなさまに

このP.13やP.16を問題にします. 特にP.16では具体的に「統計数理とモデリング」というタイトルがついていて, 「統計学」は数理モデリングの 1 分野であるとされています. 特に次の図式に着目しましょう. \begin{align} \begin{tikzpicture}[auto] \node (a) at (0, 1.2) {未知の分布}; \node (x) at (2.5, 1.2) {データ}; \node (b) at (0, 0) {推測された分布}; \node (y) at (2.5, 0) {統計的諸量}; \draw[->] (a) to (x); \draw[->] (x) to node{モデルと事前分布} (y); \draw[<->] (a) to node[swap] {誤差の推定} (b); \draw[<-] (b) to (y); \end{tikzpicture} \end{align}

「統計学」はこの未知の分布をどう推測するかが課題とされています. そして次のような記述があります.

P.14: データを発生している真の分布は不明である
P.21: 正しい主義は存在しない
P.21: 正しい方法も存在しない
P.21: 好きな方法を使ってよいが結果は常に間違っている
P.21: どのくらい間違っているかを数学的に知ることができる

私がここで問題にしたいのはそもそも「統計学」は数理モデリングであること, そして未知の分布の仮定です. つまり「統計学」はあくまで\coloredtextbf{真の分布があると仮定}した上で, その真の分布を推測する理論なのです. そもそも真の分布があるかどうか, \coloredtextbf{調査対象を確率分布で記述するのが正しいか・適切かどうか}を問題にしていません. 確率論が確率とは何かを問わない数学であるように, 「統計学」は問題を確率で記述できることを疑わない数学の側面があるのです.

「確率で記述できるのか」問題¶

例えば天気予報を考えてみましょう.

「明日の東京での降水確率は80\%です.」

自然現象を考える上では物理が基本なので物理から考えてみます. 降水確率の正確な定義はともかく, 物理としては明日の東京の天気は物理法則から完全に決まっているとみなすべき現象で, 確率的に決まる現象ではありません. 一方で現実的な問題として物理法則, 特に数学としての微分方程式の初期条件を厳密に・正確に特定しきれない問題があり, その不確定さを補うために確率論を援用しています. ここで確率論を援用していいかどうかは完全に非自明です. 天気予報の精度がいいか悪いかという以前の話です.

先程紹介した基礎文献によれば「統計学」はあくまで数理モデリングです. 「統計学」による推測結果が正しいかどうかという以前に, 「統計学」または確率論を使った記述が適切かどうかという問題があります. 自明な人には自明なのでしょう. しかしあまりにも言及がなさすぎるように思います. 「哲学」的な統計学の正しさの議論の前に, 数理モデリングとしての統計学の立ち位置を明確にすべきであり, 私は先程の図式は次のように書くべきだと考えています. \begin{align} \begin{tikzpicture}[auto] \node (z) at (-4.0, 1.2) {解析対象}; \node (a) at (0, 1.2) {未知の分布}; \node (x) at (2.5, 1.2) {データ}; \node (b) at (0, 0) {推測された分布}; \node (y) at (2.5, 0) {統計的諸量}; \draw[->] (z) to node{存在を仮定} (a); \draw[->] (a) to (x); \draw[->] (x) to node{モデルと事前分布} (y); \draw[<->] (a) to node[swap] {誤差の推定} (b); \draw[<-] (b) to (y); \end{tikzpicture} \end{align}

アンケート¶

毎回アンケートを取っています. 質問や要望がある場合もこちらにどうぞ.

アンケートへのリンク

アンケートは匿名なので気楽にコメントしてください. 直接返事してほしいことがあれば, メールなど適当な手段で連絡してください. 返事は確約できませんが, 適当な手段でコンテンツに反映させていきます.

相転移プロダクションコンテンツアーカイブ