目次 / Contents
1. 確率変数とデータの表現
統計学では、データのばらつきを表現するために「確率変数」という概念を使います。
確率変数はまだ値が決まっていない変数のことで、ある範囲(標本空間)内の値をとり、それぞれの値に対応する確率が決まっています。
表記法
- 確率変数:大文字(例:$Y$)
- 実際に観測された値:小文字(例:$y$)
例)$N$人のデータを表す場合:
- 確率変数:$Y_1, Y_2, …, Y_N$
- ベクトル表記:$\boldsymbol{Y} = (Y_1, Y_2, …, Y_N)^T$
ここで、$T$は転置を表します。
2. パラメータと推定
確率分布にはその特徴を決定するパラメータが含まれます。
例えば、正規分布には平均$\mu$と分散$\sigma^2$があります。
推定の3つの概念
推定目標(estimand):知りたい真の値(例:$\mu$)
推定量(estimator):推定目標を求めるための計算方法(例:$\hat{\mu}$)
推定値(estimate):実際にデータから計算した値
例えば、平均の推定量は以下のように表されます:
$$\begin{aligned}\hat{\mu} = \frac{1}{N} \sum_{i=1}^N Y_i\end{aligned}$$
3. 条件付き独立性と期待値
条件付き独立性
2つの確率変数$X$と$Y$が、第3の変数$Z$の下で条件付き独立であるとき、以下のように表します:
$$X \perp Y | Z$$
これは、$Z$が与えられた時、$X$と$Y$が互いに影響し合わないことを意味します。
条件付き期待値
条件付き期待値は、ある条件が与えられた時の確率変数の平均値を表します。
$X=x$という条件下での$Y$の条件付き期待値は以下のように定義されます:
$$\begin{aligned}E(Y|X=x) = \int Y p(y|x) dy\end{aligned}$$
ここで、$p(y|x)$は$X=x$という条件下での$Y$の確率密度関数です。
条件付き期待値と因果関係の解釈:
すべての確率分布が期待値を持つわけではありませんが、確率変数 $Y$ の期待値 $E(Y)$ が存在する場合、ほとんどすべての $x$ に対して条件付き期待値 $E(Y|X=x)$ も存在します。
$Y$ の条件付き期待値が $X$ に依存する場合、つまり $E(Y|X=x)$ が $x$ の値によって変化する場合、$X$ と $Y$ の間に何らかの関係性があると考えられます。
これは一見、$X$ が原因で $Y$ が結果であるような因果関係を示唆するように見えます。
しかしこの依存関係は単に $X$ と $Y$ の間の相関を反映しているだけかもしれません。
条件付き期待値の性質:
$E(Y|X=x)$ は $x$ の観測値に対する $Y$ の条件付き期待値ですが、これを $x$ の関数と見なすこともできます。
つまり、$x$ の値が変化したときに $E(Y|X=x)$ がどのように変化するかを考察することができます。
さらに柔軟な見方をすれば、$E(Y|X)$ 自体を $X$ の関数である確率変数として扱うこともできます。
この場合、$E(Y|X)$ は $X$ の取り得る値ごとに異なる値を持つ確率変数となります。
この考え方を数学的に表現したのが期待値の繰り返しの公式です:
$$\begin{aligned}E[E(Y|X)] = \int E(Y|X=x) p(x) dx = E(Y)\end{aligned}$$
この公式は
「条件付き期待値 $E(Y|X)$ の期待値を取ると、それは $X$ の確率密度関数 $p(x)$ で重み付けされた $E(Y|X=x)$ の積分になり、結果として $Y$ の無条件の期待値 $E(Y)$ に等しくなる」
ということを表しています。
この公式は直接計算が難しい期待値を条件付き期待値を介して間接的に計算する際に有用です。
確率変数間の関係性を理解する上でも重要な概念です。
4. 代表的な確率分布
連続型確率分布(正規分布、多変量正規分布、カイ二乗分布、F分布、ベータ分布)には確率密度関数を、離散型確率分布(二項分布、多項分布、超幾何分布、ポアソン分布)には確率関数を、それぞれ明確に区別して記載しています。
4.1 正規分布
正規分布は、多くの自然現象やデータに当てはまる重要な分布です。
確率密度関数: $\begin{aligned}p(y; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{1}{2}\left(\frac{y-\mu}{\sigma}\right)^2\right]\end{aligned}$
特徴:
- 平均:$E(Y) = \mu$
- 分散:$Var(Y) = \sigma^2$
4.2 多変量正規分布
多変量正規分布は、複数の確率変数が同時に正規分布に従う場合の結合分布を表します。
確率密度関数: $\begin{aligned}p(\boldsymbol{y}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{N/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left[-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{y}-\boldsymbol{\mu})\right]\end{aligned}$
特徴:
- 平均:$E(\boldsymbol{Y}) = \boldsymbol{\mu}$
- 分散共分散:$Var(\boldsymbol{Y}) = \boldsymbol{\Sigma}$
4.3 カイ二乗($\chi^2$)分布
カイ二乗分布は、正規分布から導かれる確率分布で、検定統計量の分布として重要です。
確率密度関数:$\begin{aligned}f(x; k) = \frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2-1} e^{-x/2}\end{aligned}$
特徴:
- 平均:$E(\chi^2) = p$($p$は自由度)
- 分散:$Var(\chi^2) = 2p$
Cochran(コクラン)の定理
$\chi^2$ 分布には Cochranの定理と呼ばれる加法性が成り立ちます。
これは独立な 2 つの標準正規分布の平方和$\begin{aligned}\chi_1^2=\sum_{i=1}^p Y_i^2, \quad \chi_2^2=\sum_{i=p+1}^{p+q} Y_i^2\end{aligned}$があったとき, $\chi^2=\chi_1^2+\chi_2^2$ が自由度 $p+q$ の $\chi^2$ 分布に従うという定理です.
4.4 F分布
F分布は、2つのカイ二乗分布の比から導かれる分布で、分散分析などで使用されます。
確率密度関数: $\begin{aligned}f(x; d_1, d_2) = \frac{\sqrt{\frac{(d_1x)^{d_1} d_2^{d_2}}{(d_1x+d_2)^{d_1+d_2}}}}{x B(\frac{d_1}{2}, \frac{d_2}{2})}\end{aligned}$
ここで、$d_1$と$d_2$は自由度、$B$はベータ関数。
特徴:
- 平均($d_2 > 2$の場合):$\begin{aligned}E(F) = \frac{d_2}{d_2 – 2}\end{aligned}$
- 分散($d_2 > 4$の場合):$\begin{aligned}Var(F) = \frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)}\end{aligned}$
4.5 ベータ分布
ベータ分布は0から1の範囲の値を取る確率変数の分布を表すのに適しており、ベイズ統計で重要な役割を果たします。
確率密度関数: $\begin{aligned}p(\pi; a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \pi^{a-1}(1-\pi)^{b-1}\end{aligned}$
特徴:
- 平均:$\begin{aligned}E(\pi) = \frac{a}{a+b}\end{aligned}$
- 分散:$\begin{aligned}Var(\pi) = \frac{ab}{(a+b)^2(a+b+1)}\end{aligned}$
4.6 二項分布
二項分布は、成功確率$\pi$の試行を$N$回独立に繰り返したときの成功回数の分布です。
確率関数: $\begin{aligned}Pr(Y=y; \pi, N) = \binom{N}{y} \pi^y (1-\pi)^{N-y}\end{aligned}$
ただし\begin{aligned}\binom{N}{y}=\frac{N!}{y!(N-y)!}\end{aligned}
特徴:
- 平均:$\begin{aligned}E(Y) = N\pi\end{aligned}$
- 分散:$\begin{aligned}Var(Y) = N\pi(1-\pi)\end{aligned}$
4.7 多項分布
多項分布は、二項分布を多変量に拡張したものです。
確率関数: $\begin{aligned}Pr(\boldsymbol{Y}=\boldsymbol{y}; \pi_1, …, \pi_K, N) = \frac{N!}{y_1! \cdots y_K!} \pi_1^{y_1} \cdots \pi_K^{y_K}\end{aligned}$
特徴:
- 平均:$\begin{aligned}E(Y_i) = N\pi_i\end{aligned}$
- 分散:$\begin{aligned}Var(Y_i) = N\pi_i(1-\pi_i)\end{aligned}$
- 共分散:$\begin{aligned}Cov(Y_i, Y_j) = -N\pi_i\pi_j\end{aligned}$ (i ≠ j)
超幾何分布は Fisher の正確検定で用いられます.
4.8 超幾何分布
超幾何分布は、有限な母集団からの非復元抽出における成功数の分布を表します。
確率関数: $\begin{aligned}Pr(Y=y; N, K, n) = \frac{\binom{K}{y}\binom{N-K}{n-y}}{\binom{N}{n}}\end{aligned}$
特徴:
- 平均:$\begin{aligned}E(Y) = n\frac{K}{N}\end{aligned}$
- 分散:$\begin{aligned}Var(Y) = n\frac{K}{N}\frac{N-K}{N}\frac{N-n}{N-1}\end{aligned}$
超幾何分布、2項分布、多項分布の間には、2つの重要な関係があります。
条件付けでの関係:
2つの独立した2項分布(これを「積2項分布モデル」と呼びます)を考えます。
積2項分布モデルで全体の合計(周辺度数)を固定すると、その条件付き分布は超幾何分布になります。
同様に、多項分布でも周辺度数を固定すると、超幾何分布が得られます。
簡単に言うと、2項分布や多項分布で「全体の数」を決めてしまうと超幾何分布が現れます。
極限での関係:
サンプルサイズ(N)が非常に大きくなると、超幾何分布は2項分布に近づきます。
つまり超幾何分布と2項分布・多項分布の主な違いは、「全体の数を固定するかどうか」です。
サンプルサイズが非常に大きくなると、この違いはほとんど意味をなさなくなります。
例として、ある学校に200人の生徒が在籍し、そのうち80人が運動部に所属していたとします。
学校祭の実行委員としてランダムに50人を選ぶことになりました。
この状況で「選ばれた50人の中に運動部の生徒が何人含まれるか」を考えるのが超幾何分布です。
ここで重要なポイントは、
- 全体の人数(200人)は固定されている
- 運動部の人数(80人)も固定されている
- 選ぶ人数(50人)も決まっている
これが「周辺度数を固定する」ということになります。
一方、2項分布の場合は各生徒が運動部に所属する確率(この場合80/200 = 40%)だけを考え、全体の人数は考慮しません。
超幾何分布は、「一度選んだ人はもう選べない」状況を正確に表現します。
これは小さな集団から選ぶときには特に重要です。
2項分布は、「毎回同じ確率で選ぶ」状況を表現します。
大きな集団から選ぶときは、こちらでも十分正確とみなすことができます。
まとめると以下のようになります。
- 小さな集団から抽出を行う場合は、超幾何分布を使用する方が適切かもしれない。
- 大きな集団から抽出を行う場合は、2項分布や多項分布を使っても問題ない。
4.9 ポアソン分布
ポアソン分布は、単位時間あたりの事象の発生回数などを表すのに使われます。
確率関数: $\begin{aligned}Pr(Y=y; \lambda) = \frac{\lambda^y e^{-\lambda}}{y!}\end{aligned}$
特徴:
- 平均:$\begin{aligned}E(Y) = \lambda\end{aligned}$
- 分散:$\begin{aligned}Var(Y) = \lambda\end{aligned}$
これらの確率分布は統計学の基礎となる重要な概念です。
実際の応用では、データの性質に応じて適切な分布を選択して解析を行います。
参考文献
最終更新: