確率と確率分布

順列と組み合わせ

あるまとまりからいくつかのものを取りだすことを考えます.例えば,1-8までの数字が書かれたカードが1枚ずつあり,その中から3枚を選んで並べることを考えます.ここで,2と5と8のカードを引いたとき,258と582を別のものと考える場合(順番も考える)と,考えない場合(引いたものは同じ)があります.

前者を順列と言い,n個の異なるものの中から,異なるr個( $r\le n$ )を取って並べた順列の総数を ${}_{n}\mathrm{P}_{r}(0\le r\le n)$ で表します.なお, ${}_{n}\mathrm{P}_{r}=\frac{n!}{(n-r)!}$ , ${}_{n}\mathrm{P}_{0}=1$ と定めます。

一方,後者は組み合わせと言い,数を ${}_{n}\mathrm{C}_{r}$ と表します.なお, ${}_{n}\mathrm{C}_{r}=\frac{{}_{n}\mathrm{P}_{r}}{r!}=\frac{n!}{r!(n-r)!}$ , ${}_{n}\mathrm{C}_{0}=1$ と定めます.その他, ${}_{n}\mathrm{C}_{r}={}_{n}\mathrm{C}_{n-r}$ , ${}_{n}\mathrm{C}_{r}={}_{n-1}\mathrm{C}_{r-1}+{}_{n-1}\mathrm{C}_{r}$ なる公式が成立します.

次に,同じものを含む場合の順列を考えます.例えば,1-3のカードが2枚ずつ,4-8のカードが1枚ずつの合計11枚のカードから3枚を引いて並べる場合があてはまります.n個の内,p個が同じもの,q個は他の同じもの,r個はさらに他の同じもの……(n=p+q+r……),の順列の総数は $\frac{n!}{p!q!r!\cdots}$ です.また,n個の異なるものの中から,重複を許してr個を選ぶ場合の数は $n^{r}$ です.

確率の基本

何度も繰り返し同じ条件でできる事柄を試行と言い,試行の結果起こる事柄を事象と言います.個々の事象(これ以上分けても意味がないもの;例えば,サイコロを投げたときに1の目がでる事象は,これ以上分けようがありません)を根元事象,起こり得る全ての事象を標本空間(全事象)と言います.全事象をU,その中の事象をA,起こり得る数をそれぞれn(U),n(A)とすると,事象Aの起こる確率P(A)は $P(A)=\frac{n(A)}{n(U)}$ で表されます.そして,確率には次の基本定理が成立します.

同じ試行を繰り返した場合の確率を反復事象の確率と言います.ある事象が起こる確率をpとすると,その事象がn回中m回( $n\ge m$ )発生する確率は ${}_{n}\mathrm{C}_{m}p^{m}(1-p)^{n-m}$ です.

事象Aと事象Bについて,事象Aの結果が事象Bの確率に影響を与えない場合,事象Bは事象Aに独立であると言い,そうでない場合は従属であると言います.事象Aと事象Bが独立なら $P(A)P(B)=P(A\cup B)$ が成立します.また,事象Bが事象Aに従属で,事象Aが起こったときに事象Bが起こる確率を,事象Aが起こったときに事象Bが起こる条件付き確率と言い, $P_{A}(B)$ と表します.

確率の乗法定理として, $P(A\cap B)=P(A)P_{A}(B)$ が成立します.

一方,事象Aと事象Bが同時に起こることはあり得ない場合,事象Aと事象Bは互いに排反であると言います.

確率分布

ある試行で,その特性を示す値の生起する確率が定まる場合,この特性を示す変数Xを確率変数と言い,確率変数のとる全ての値に対する確率を網羅したものを確率分布と言います.確率分布には離散型確率分布連続型確率分布があります.

離散型確率分布は確率変数がとびとびの値をとるものです.例えば,サイコロを転がしたときに何の目がでるかについて,目は1から6の整数ですから,確率変数は1から6の整数です.これは数学的には連続していませんので,離散型確率分布に従います.なお,確率変数Xが値aをとる確率をP(X=a)と表します.

離散型確率分布では $P(X=a_{1})=p_{1},P(X=a_{2})=p_{2},\cdots,P(X=a_{n})=p_{n}$ かつ $p_{i}\ge 0(i=1,2,\cdots,n)$ のとき, $\sum_{i=1}^{n}p_{i}=1$ となります.

一方,連続型確率分布において,分布の形状を示す関数f(x)を確率密度関数と言います.変数Xは連続量ですから,a<X<bである確率は,xy平面上におけるy=f(x)のグラフに対して,f(x)とx=a,x=bの2直線で囲まれた部分の面積と考えられます.つまり, $P(a<X<b)=\int_{a}^{b}f(x)\,dx$ です.また, $f(x)\ge 0$ かつ $\int_{-\infty}^{\infty}f(x)\,dx=1$ が成立します.

統計の基本

資料の代表値

n個のデータx1,x2,…,xnがあるとき,平均値(期待値)はデータの重心の位置 $\overline{x}=\sum_{i=1}^{n}x_{i}$ を算出していると考えられます.また,各データと平均値との隔たり(分散)を $\frac{1}{n}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}$ と定義します.さらに,分散の平方根をとって平均値との単位の次元をそろえた量を標準偏差と言います.

平均値E(X),分散V(X),標準偏差σ(X)は次の公式で求められます.

離散型分布 連続型分布
E(X) $\sum_{i=1}^{n}a_{i}p_{i}$ $\int_{-\infty}^{\infty}xf(x)\,dx$
V(X) $\sum_{i=1}^{n}\left(a_{i}-E(X)\right)^{2}p_{i}$ $\int_{-\infty}^{\infty}\left(x-E(X)\right)^{2}f(x)\,dx$
σ(X) $\sqrt{V(X)}$

2つの変量(x,y)に関する資料(x1,y1),(x2,y2),…,(xn,yn)があり,x,yの平均値をそれぞれ $\overline{x}$ , $\overline{y}$ とすると,共分散は $\sigma_{xy}=\frac{1}{n}\sum_{k=1}^{n}\left(x_{k}-\overline{x}\right)\left(y_{k}-\overline{y}\right)$ で求められます.また,xとyの相関係数は $r_{xy}=\frac{\sigma_{xy}}{\sigma_{x}\sigma_{y}}$ で求められます.

次に,データとして以下の6個の数値を考えます.

10 20 20 30 30 30

これらのデータの算術平均は約23です.この他にメジアン(中央値)モード(最頻値)があります.

メジアンは,データを昇順に整列したときに真ん中にくる数です.奇数個ならばその数自体が,偶数個ならば真ん中の数の両隣にある数値の平均です.モードは,最も多くでてくる数値です.上の例では,メジアンは25,モードは30です.

色々な確率分布と確率分布関数(分布関数)

Xを確率変数とするとき $F(x)=P(X\le x)$ を満たすF(x)を確率分布関数(分布関数)と言います.f(x)を確率密度関数とすると,Xが離散型のときは $F(x)=\sum_{k:x_{k}\le x}p_{k}$ ,連続型のときは $F(x)=\int_{-\infty}^{x}f(t)\,dt$ です.

分布関数が分かると,確率や確率密度関数が求まります.この関数は単調増加関数で,連続型分布のときは $F^{\prime}(x)=f(x)$ の関係を満たします.

正規分布に関連した分布

確率変数X1,X2,…,Xnを互いに独立で同じ標準正規分布N(0,1)に従う確率変数とし, $\chi^{2}=\sum_{i=1}^{n}X_{i}^{2}$ の確率密度関数f(x)に従う分布を自由度nの $\chi^{2}$ 分布と言います.また,自由度nの $\chi^{2}$ 分布の上側α-点を $\chi^{2}(n;\alpha)$ と表し,これは数値化されて表になっています.

一方,標準正規分布N(0,1)に従う確率変数Xと,自由度nの $\chi^{2}$ 分布に従う確率変数Yについて, $T=\frac{X}{\sqrt{\frac{Y}{n}}}$ の確率密度関数f(t)に従う分布を自由度nのt分布と言います.上側α-点はt(n;α)で表します.t分布は正規分布に近く,n→∞のときは標準正規分布と同一になります.

上側α-点についてそれぞれ図示します.

χ2乗分布の上側α-点 t分布の上側α-点

統計的推測・検定

統計調査の手法

統計的な調査には,対象とする集団の要素全てについて調べる全数調査と,集団の要素から一部分を抜きだし,その結果から全体の状況を推測する標本調査があります.

標本調査では,本来調べたい対象全体の集まりを母集団,調査のために母集団から抜きだされた要素の集合を標本と言い,母集団から標本を抜きだすことを標本の抽出と言います.また,母集団や標本の要素の個数を,それぞれ母集団や標本の大きさと言います.

母集団から大きさnの標本を抽出するとき,抽出した標本を母集団に戻してから次の標本を取りだす方法を復元抽出と言い,戻さないで取りだす方法を非復元抽出と言います.

抽出された標本が偏ったものにならない方法の1つとして,乱数表を用います.偏りなく標本を抽出する方法を無作為抽出法と言い,その方法で抽出された標本を無作為標本と言います.

なお,ある標本の値をXとするとき,Xの母集団の確率分布を母集団分布と言います.また,母集団のXの期待値,標準偏差はそれぞれ母平均母標準偏差と言います.一方,抽出した標本の平均値・分散・標準偏差をそれぞれ標本平均標本分散標本標準偏差と言います.

ある集団の中から何人かを選び,特性Aがあるかどうか(例えば,血液型がA型かどうか)を調査の対象とすることがあります.このとき,母集団の中で特性Aをもつ要素の割合を,特性Aの母比率,抽出された標本の中で特性Aをもつ要素の割合を標本比率と言い,標本比率は確率変数となります.

母平均m,母標準偏差σの母集団から大きさnの無作為標本を抽出するとき,標本平均 $\overline{X}$ の期待値と標準偏差はそれぞれ $E\left(\overline{X}\right)=m$ , $\sigma\left(\overline{X}\right)=\frac{\sigma}{\sqrt{n}}$ となります.また, $\overline{X}$ はnが大きいときに,近似的に正規分布 $N\left(m,\frac{\sigma^{2}}{n}\right)$ に従うと見なすことができます.また,母比率をp,大きさnの無作為標本の標本比率をRとすると, $E(R)=p$ , $\sigma(R)=\sqrt{\frac{p(1-p)}{n}}$ となり,nが大きいとき,Rは近似的に正規分布 $N\left(p,\frac{p(1-p)}{n}\right)$ に従います.

統計的推定

$X_{1},X_{2},\cdots,X_{n}$ を正規母集団 $N\left(\mu,\sigma^{2}\right)$ からの無作為標本とし,その平均値を $\overline{X}$ ,平方和を $S=\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}$ とします.

無作為標本から母平均 $\mu$ や母分散 $\sigma^{2}$ を区間推定する方法を説明します.ここで,推定された区間の中に実際の値が含まれている確率を1-α(0<α<1)とします.例えば,α=0.05として推定した区間(信頼係数1-αの信頼区間)に,実際の値が含まれている確率は95%となります.一般に,データの数nを増やすほど信頼区間の幅が狭まり,良い区間推定ができます.

統計的検定

標本調査の結果,既知の母平均や母分散が本当に正しいか,疑いが生じる場合があります.例えば,厚さ80[mm]の木材を作っている工場があり,完成品から無作為抽出した標本のばらつきから,本当に80[mm]の木材になっているのか(この場合は母平均)という疑いが生じたとします.100%の確率で疑いを払拭するなら,完成品を全部調べないといけませんが,非現実的です.

木材の厚さは変わっていないという仮説H0帰無仮説(この場合,H0:μ=μ0(=80[mm]))と言い,変わっているという仮説H1対立仮説と言います.

ここで,有意確率 $P\left(Z\le\frac{\sqrt{n}\left(\overline{X}-\mu_{0}\right)}{\sigma}\right)$ を求め,この値が小さいならば仮説H0を棄却(木材の厚さは変わっていない)します.有意確率をどうするか(有意水準の決定)検定の適用分野にもよりますが,通常は5%か1%とします.5%でH0が棄却されたとき,仮説H0有意であると言います.1%で棄却された場合は,高度に有意であると言うこともあります.

なお,木材の厚さが変わっているという仮説には3つの種類があります.

前者2つは片側検定を,最後の仮説は両側検定を行います.

なお,検定にあたり,検定統計量 $U_{0}=\frac{\overline{X}-\mu_{0}}{\sqrt{\frac{\sigma^{2}}{n}}}=\frac{\sqrt{n}\left(\overline{X}-\mu_{0}\right)}{\sigma}$ を定めます.H0が正しいとき,U0は標準正規分布に従います.

Check

このページでは具体例が少ない割に数式が多くでてきたため,混乱された方もいらっしゃると思います.確率と統計(特に統計)については,実際の問題を解くことが理解を深めることになると思います.

数学のページに例題と解答を掲載していますので,ぜひご覧下さい.