経済学 統計学・計量経済学

簡単! 基礎からの統計学 1 データの整理 

投稿日:

初めて統計学を学ぶ人向けに 基礎からの統計学 まとめノートを作っています。

 

参考としているのは、「コア・テキスト統計学 新世社」 です。

 

 

こちらの本は基礎から丁寧に、そしてカラフルにわかりやすいのでお勧めです。

セットで、こちらの演習もあると、理解が含まります。

 

 

 

経済学部入学したての学部生から社会人の学び直しまでカバーするつもりです!

 
 



 

今日は データの整理 について。

 

基礎からの統計学 データの整理

 

分布

 

度数分布表

 

度数分布表:データを階級分けにして、その階級に入っているデータの個数(度数)をもとめて表にしたもの。

・階級、度数、相対度数累積相対度数などを求める

(↓度数分布表↓)

 

階級値:階級を1つの値で代表する値。例えば「83以上84未満の階級」では、83.5を指す。

 

・ここでは分布という用語を以下のように定義する

①データがどのように散らばっているかを表すもの
②データ全体の傾向・特徴を表すもの

 

・度数分布表を作成する際の注意

  1. 階級の個数は全体のデータ数やデータの最小・最大を考慮し、区切りのいい値を値を使う。階級値には中間の値を使う
  2. 各階級は同じ幅にする
  3. はじめの階級や最後の階級は、ある値未満や以上となることがある。これをオープンエンドの階級と呼ぶ。この場合階級値は平均値を使う

 

ヒストグラム

 

ヒストグラム:度数分布表をもとに階級を横軸に、度数を縦軸に取ったグラフのこと。

 

 

・ヒストグラムではすべての階級幅が一致していないと誤解を与える可能性がある。その場合、高さによってあらわすのではなく、面積が基準になる。

・また、面積ではわかりにくい場合がある。その場合は、高さを調整する。例えば標準階級幅に比べて4倍の階級幅がある場合は、実際の数値よりも高さを1/4にするなど。

 

代表値

 

・代表値については用途によって様々なものが使われるのでそれぞれ見ていく

 

平均値

 

これはいいでしょう

 

・データがn個ある時の平均値Aは、

A=(x1+x2+…+xn)÷n

かっこよく書くと

A=1/n*Σ[i=1…n](xi)

 

今日はこの後平均値をAと表現します。

本当はXの上に棒がある、Xバーなんですが、ネットで表現しきれないため。
 



 

 

位置に関する代表値

 

最頻値(モード):最もデータが集中している値

中央値(メディアン):ちょうど中央に位置するもの

 

散らばりの程度に関する代表値

 

分散:nこのデータに対して以下のv,s^2で表現されるものを分散と呼ぶ

分散

①v=1/n{(x1-A)^2+…+(xn-A)^2}
=1/n*Σ[i=1…n](xi-A)^2
②S^2=1/(n-1)*Σ[i=1…n](xi-A)^2

 

・上の数式から導かれるvの平方根またはs^2の平方根を標準偏差と呼ぶ

・つまり標準偏差は、データが平均値からどれだけ散らばっているかを示す尺度になっている

 

度数分布表からの平均・分散

 

・度数分布表では階級別にデータがまとめられているため、個別のデータがわからない

・その場合、平均や分散を作成するときは、階級値を使う

 

その他の代表値

 

変動係数

 

・例)銘柄Aの平均株価は1万円で標準偏差が10円、銘柄Bは平均100円で標準偏差10円。この時どちらの変動が大きかったか

→標準偏差はいずれも10だが、標準偏差は平均値からどの程度散らばっているかなので、1万円から10円程度の散らばりと、100円から10円程度の散らばりでは、後者の方が散らばりが大きかったといえる

 

・この点をうまく表すのが変動係数

・変動係数=標準偏差÷平均

 

・すると例題は、0.001と0.1なので、Bの方が変動が大きかったといえる

 

比率の平均値

 

・例)5年間で20%成長した企業の1年間での平均成長率はいくらになるか

・この時は幾何平均を使う

幾何平均=(x1*x2…*xn)^1/n

 

・成長率の平均を求める際には、幾何平均を使うのが自然

・ただし、関数電卓や表計算ソフトが必要となるので、単純に平均値で代用することもある

 

上の例だと、(1.00+r)^5=1.20を解く必要がある

 

(補足)
 



 

Excelで幾何平均を求めるときは、上の例だと

r=1.20^(1/5)-1.00を解くことになる。

 

これは、簡単で、Excelにのマスに、=1.20^(1/5)-1.00をぶち込んでやればよい

 

 

こちらも参照

 

 

データの標準化

 

データの標準化とは、例えばテストを2回受けた時に、1回目が50点満点の30点・2回目が100点満点の70点であるときに、自分の成績を比較するために、満点や難易度などを考慮して正確に比較するための手法。

データの標準化

・n個のデータ、x1,x2…xnに対して平均をA、標準偏差をsとするときに元のデータを標準化した値Ziは、

Zi=(xi-A)/S [i=1,2…n]

 

・つまり標準化とは、平均値であればゼロ、分散1にする変換である

 

データの分布の計上についての代表値

 

・ヒストグラムを見れば特徴を視覚的に見ることができる

・これを数値で表す、歪み尖りについて説明する

 

分布の歪み

 

・分布の山が右側にある時は左に歪んでいる。山が左側にある時は右に歪んいるといえる

 

 

・これは歪度(れいど)で判別可能

 

歪度

=1/nΣ[i=1…n]{(xi-A)/s}^3

=1/nΣ[i=1…n]Zi^3

 

・歪度はゼロに近いほど対称に近い

・歪度がプラスだと右に歪んでいる

・歪度がマイナスだと左に歪んでいる

 

分布の尖り

 

尖度は平均近辺での分布の偏りを表す

 

尖度

=1/nΣ[i=1…n]{(xi-A)/s}^4

=1/nΣ[i=1…n]Zi^4

 

母集団と標本

 

母集団:本来の調査対象のこと

標本:母集団の一部であるデータ

全数調査センサス):母集団すべてを調べること。国勢調査など。
 



 

 

標本抽出の方法

 

・最も重要なことは、標本が母集団の分布を反映するように抽出されていること

・標本を選び出すことはサンプリング抽出)と呼ばれる

 

・サンプリングには2種類。①ランダム・サンプリング、②有為抽出法

 

・ランダム・サンプリングにも、単純ランダムサンプリング、系統的サンプリング、多段抽出法、層化抽出法がある

 

母集団と標本の関係

 

・標本から平均を求めても、母集団の平均などは未知であり標本からの推測に過ぎない

・そのため、これを統計的推測、あるいは統計的推論と呼ぶ

 

標本が変われば結果が変わるような調査は不正確さが残る

・そのため確立や確率変数などで解決していく必要がある

 

-経済学, 統計学・計量経済学

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

概説日本経済史試験対策ノート17 平成不況

概説日本経済史 三和良一&#12 …

現代の経済政策テスト対策ノート14 福祉政策

現代の経済政策 田代洋一&#12 …

現代の経済政策テスト対策ノート12 環境政策

現代の経済政策 田代洋一&#12 …

開発経済学の基礎 1 貧困削減へのアプローチ

モンテです。今日は 開発&#32 …

財務会計講義11 株主資本と純資産

日本一読まれている財務会&#35 …