物理とか

Index

平均・分散


1.連続分布の確率

これからは連続分布の確率変数についても扱って行きたいところ。そこで、連続分布の確率とはどうやって表したらよいだろうか?前回説明したように、連続分布ではある特定の値をとる確率は0になってしまうのだった。
そこで、

密度関数

というのを定義してやる。密度関数とは、ある確率変数Xについて、 \[ P[a≦X≦b] = \int_a^b f(x) dx \] が任意の\(a≦b\)に対して成り立つような関数\(f(x)\)のことをいう。ちなみに、\(P[a≦X≦b]\)というのは確率変数Xを何かの箱の中から取り出したときに、a以上b以下となっている確率のことだ。 突然難しくなったみたいで申し訳ないが、この式が何を言っているかというと、連続分布ではXがある値xをとる確率はゼロ→じゃあその値に幅を持たせて、Xがx~x+dxにある確率をf(x)dxと定義すればいいじゃん!みたいな話だ。

2.確率変数の平均

普通に平均を求めようとしたらどうやってやるか、というところから考えていこう。たとえば、確率変数Xについて、全部で\(n\)個のとりうるデータの値\(x_1,x_2,x_3,...,x_n\)があって、そのそれぞれの値について\(r_1,r_2,r_3,...,r_n\)個のデータが取れていたとしよう。その平均\(m\)といえば、
\[m = \frac{1}{N} \sum_{i=1}^n x_ir_i~~~~ただし~N=\sum_{i=1}^n r_i\] という風に計算できる。ちょっと変形してやろう。
\[m = \sum_{i=1}^n x_i\frac{r_i}{N}\] さあここでよくみると、\(\frac{r_i}{N}\)というのはデータ\(x_i\)のでる確率といえるのではないだろうか。そこでこういう風に書き換えよう。
\[m = \sum_{i=1}^n x_iP[X=x_i] \] とかける。これならいちいちデータの数について考える必要もない。だから、これからはこれを確率変数Xの

平均値

(

期待値

ともよばれる)\(E[X]\)の定義として使うことにする。すなわち、
\[E[X]=\sum_i x_iP[X=x_i]\] ということだ。また、これからはΣ記号の下に単に一文字書いただけの時には、その文字がとりうる値全てについて和をとると約束しておこう。

さて、次は連続分布についても定義してやる。上の離散分布の場合の定義から類推するが、連続だからΣを∫に、確率の部分をf(x)dxに置き換えてやればよいだろう。したがって
\[E[X]=\int_{-\infty}^{\infty} xf(x)dx\] という風に定義する。

一応注意しておくが、E[x]という量は、いつも存在するとは限らない。積分計算からも分かると思うが、これは広義積分として定義されているので収束しないことだって大いにありうる。離散分布の場合だって、Xが無限個のデータを取りうるのならば無限級数になる。
ともかく平均値(期待値)という量が存在しないこともある、ということはチェックしておく。

3.分散と標準偏差

分散というのは、ある確率変数Xのデータがどれくらい平均からずれているか、その具合を表す量である。どうやって定義しよう?
分散\(V[X]\)は、\(X-E[X]\)というのが平均からのずれになるわけだが、これを二乗したものの平均 \[V[X] = E\left[ (X-E[X])^2 \right]\] という風に定義される。平均からのずれを簡単に足してしまうとそのずれの±で打ち消しあう。二乗するのは、平均を取ったときに0になることを防ぐためだ。具体的にどのように計算されるかというと、
\begin{align} V[X]&=\sum_i \left(x_i-E[X]\right)^2P[X=x_i] &~~~~~~~ 離散分布 \\\\ V[X]&=\int_{-\infty}^{\infty} \left(x-E[X]\right)^2f(x)dx &~~~~~~~連続分布 \end{align} となる。こちらもだが、必ず存在するわけではないということはおさえておこう。標準偏差σというのは、分散の平方根として、 \[ \sigma = \sqrt{V[X]}\] と定義される。V[X]というのがデータの二乗の単位を持っているので、それを元の単位に戻してあげたものが標準偏差という量になるわけだ。

4.共分散

詳しい説明は省くが、2つの確率変数X,Yに対して、

共分散

は次のように定義される。 \[Cov[X,Y]=E\left[(X-E[X])(Y-E[Y])\right]\] 共分散というのは、X,Yの間の相関性を表す量なのだが、次の線形回帰分析を読めば、ある程度の意味がわかってもらえると思う。