みなさん,こんにちは
おかしょです.
このブログでは電子工作だけでなく,制御工学についても解説をしています.
制御工学の中でも有名なカルマンフィルタを理解するには確率統計学の知識が必要です.その基礎中の基礎となるのが,この記事で解説する平均と分散,標準偏差になります.
特に分散は,意味を間違えて覚えている方も多くいるので気を付けましょう.
この記事を読むと以下のようなことがわかる・できるようになります.
- 平均・分散・標準偏差の意味
- 平均・分散・標準偏差の求め方
この記事を読む前に
確率統計学を学習している方は,この記事は基礎的な内容なので基礎から学習したい方は参考になると思いますが,以下の記事の方がより基礎的な内容を解説しているのでそちらを先に読んでおくことをおすすめします.
平均の求め方
まず,平均の求め方から解説していきます.
平均値というのは,ある数値の集まりの代表として選ばれる数値のこと言います.
この平均は,小学校でも習うぐらい基本的な数値です.
例えば,5つの数値\(x_1, x_2,x_3,x_4,x_5\)があったとします.この数値の平均\(\bar{x}\)は以下の式により求めることができます.
$$ \bar{x} = \frac{x_1+x_2+x_3+x_4+x_5}{5} $$
この式を総和を意味する\(\sum\)を使って表すと
$$ \bar{x} = \frac{1}{5} \displaystyle \sum_{i=1}^5 x_n $$
となります.
ここで,リアルタイムで新たな数値が追加されていき,平均値を更新する方法について考えてみます.
最初の数値が\(x_1\)のみだった場合,この数値の平均\(\bar{x}_1\)は当然
$$ \bar{x}_1 = x_1 $$
です.では,新たな値\(x_2\)が追加され\(x_1,x_2\)の平均\(\bar{x}_2\)は
$$ \bar{x}_2 = \frac{x_1+x_2}{2} $$
となります.ここで,\(\bar{x}_1\)を使って書くと
$$ \bar{x}_2 = \bar{x}_1 \times \frac{1}{2}+\frac{x_2}{2} $$
と書けます.さらに新たな数値\(x_3\)が追加されると,平均値\(\bar{x}_3\)は
$$ \bar{x}_2 = \frac{x_1+x_2+x_3}{3} $$
ですが,先程と同じように\(\bar{x}_2\)を使って書くと
$$ \bar{x}_3 =\bar{x}_2 \times \frac{2}{3}+\frac{x_3}{3} $$
と書くことができます.お察しの良い方はもう気付いたかもしれませんが,もう一つの数値\(x_2\)が追加された時を考えます.このときの平均\(\bar{x}_4\)は
$$ \bar{x}_2 = \frac{x_1+x_2+x_3}{3} $$
となり
$$ \bar{x}_4 =\bar{x}_3 \times \frac{3}{4}+\frac{x_4}{4} $$
と書けます.この計算を続けていったとき,数値\(x_n\)が追加された時の平均値\(\bar{x}_n\)は以下のようにして求めることができます.
$$ \bar{x}_n =\bar{x}_{n-1} \times \frac{n-1}{n}+\frac{x_n}{n} $$
上記の計算をすることで,リアルタイムで新たな値が追加されていってもすべての数値を記憶することなく平均値を求めることができます.
分散の求め方
分散というのは,数値がどのくらい平均からずれているのか,つまりデータのばらつきを表す数値のことを言います.
数値がどのくらい平均からずれているのかを求めてみます.
例えば,以下のようにして平均値からのずれAを求めるとします.
$$ A = \frac{1}{n} \displaystyle \sum_{i=1}^n (x_i-\bar{x}) $$
この計算でも数値がどの程度平均値からずれているのかを表すことができます.しかし,偏差\((x_i-\bar{x})\)の計算が正になったり,負になったりします.そのため,この計算結果は以下のようになってしまいます.
\begin{eqnarray}
A &=& \frac{1}{n} \displaystyle \sum_{i=1}^n x_i -\frac{1}{n} \displaystyle \sum_{i=1}^n \bar{x} \\
&=& \bar{x} -\bar{x}\\
&=& 0
\end{eqnarray}
計算の結果は0となってしまいます.これでは意味がないので,偏差の計算結果が正になったり負になったりしないように絶対値記号を使ってみます.
$$ A = \frac{1}{n} \displaystyle \sum_{i=1}^n |x_i-\bar{x}| $$
この場合は偏差の値が負になることがなくなるので,計算結果が0になることはなくデータのばらつきを表す数値として適していると言えます.
しかし,絶対値の計算は数学的には扱いずらいため改善する必要があります.
絶対値の他に正の数値は正のまま,負の数値は正に変えるような計算は何か考えると,数値の2乗がそれにあたります.そこで,偏差の2乗を使った計算を使ってデータのばらつき\(v\)を表すと以下のようになります.
$$ v = \frac{1}{n} \displaystyle \sum_{i=1}^n (x_i-\bar{x})^2 $$
この計算を行うことによってデータのばらつきを正しく表現でき,数学的にも扱いやすい計算になります.このようにして求められる\(v\)を分散と呼びます.
分散は上記のようにしても求められるのですが,もう一つ求め方があります.それが
$$ v = \bar{x^2}-\bar{x}^2 $$
です.これは先ほどの式を変形すると導出できます.その導出は以下のようになります.
\begin{eqnarray}
v &=& \frac{1}{n} \displaystyle \sum_{i=1}^n (x_i-\bar{x})^2 \\
&=&\frac{1}{n} \displaystyle \sum_{i=1}^n (x_{i}^{2}-2x_{i}\bar{x}+\bar{x}^2) \\
&=& \frac{1}{n} \displaystyle \sum_{i=1}^n x_{i}^{2}-2\bar{x}\frac{1}{n} \displaystyle \sum_{i=1}^n x_{i}+\frac{1}{n} \displaystyle \sum_{i=1}^n \bar{x}^2 \\
&=& \bar{x^2}-2\bar{x}^2+\bar{x}^2 \\
&=& \bar{x^2}-\bar{x}^2
\end{eqnarray}
しかし,この分散も問題があります.数値を2乗していることによって,元の数値の単位と異なってしまうのです.このため,分散がわかっても数値と直接比較することができないので,困ってしまいます.
そこで登場するのが標準偏差です.
標準偏差の求め方
標準偏差は分散と同じようにデータのばらつきを意味します.分散と違うところは,標準偏差はデータと単位があっていることです.
分散がデータと単位が合わない原因はデータを2乗していることにありました.ならば,その2乗を打ち消すために分散を1/2乗,つまりルート√でくくってあげればデータと単位が合うことになります.
従って,標準偏差\(S\)は以下のようにして求められます.
$$ S = \sqrt{v} = \sqrt{\frac{1}{n} \displaystyle \sum_{i=1}^n (x_i-\bar{x})^2} $$
まとめ
この記事では平均の求め方,分散の求め方,標準偏差の求め方をまとめて解説しました.
これはデータを解析するうえで重要な数値になるので,計算方法や意味などをまとめて押さえておきましょう.
続けて読む
この記事では単純に数値の平均値や分散,標準偏差の求め方を解説しました.
以下の記事では,数値の和の平均や分散の求め方を解説しています.続けて参考にしてください.
Twitterでは記事の更新情報や活動の進捗などをつぶやいているので気が向いたらフォローしてください.
それでは最後まで読んでいただきありがとうございました.
コメント