テーマ「统计推断的基本思想(統計推定の基本概念)」
- 前回の振り返り、µ(平均値)、σ(標準偏差)を求めて、xの確率を求める方法など。
- 母数をすべて把握することは、現実世界では極めて不可能なので、母数から样本(サンプル)を取り出して、推定することが重要。
- 抽样方式(サンプル抽出方法)は、色々あるが、今回は随机抽样(Random sampling)を前提とする。
- 例えば、母数N5000から、1サンプルn100を抽出して、サンプルの平均値s、標準偏差σ(x)を求める。この平均値xや標準偏差sは母数の平均値µ、標準偏差σに近いと思われる。
- ただ、サンプル100個を1回目、2回目で取得した時の平均値や標準偏差は毎回異なる。
- ゆえに、このサンプルの 平均値x-barおよび 各平均値の標準偏差である標準誤差 (Standard Error、 サンプルから得られる推定量そのもののバラつきを表すもの。解説はコチラ。 ) から分布を求めれば、その確率を利用して、母数の平均値や標準偏差の範囲を推定できる。
- そして、Random samplingしたサンプルは、正規分布に従う。これを、”中心极限定理”と呼ぶ。x-bar~N(µ, σ2/n) ※σ2はσの二乗のこと
- 標準誤差を求める公式は、 SE(x)=σ/√n。nが大きくなればなるほど、母数のσに近づく。※σは母数の標準偏差、nは、サンプル数。ただし、条件が2つ。条件1:母数が無限母体であること(有限と無限の違い)。条件2:n/N≦0.05になることが条件。
- なぜ、このような公式になるかは理解しなくてOK。
- 标准误差 SE(x)=σ/√n の公式の中で、σ(母数の標準偏差)を知らない場合がほとんどなので、σをs(サンプルの標準偏差)に代用してもよい。
- つまり、SE(x)=s/√n。
- 今度は、サンプルの中に出るある事象の比率をp*(样本比率,標本比率という)、母数のある事象の比率をpとすると、样本比率は、p*=x/nとなる。※xは、サンプルの中の事象発生数。
- 抽样分布は、p*~N(p、p(1-p)/n)。样本比率の标准误差は、SE(p*)=√p(1-p)/n、となる。これも、このまま覚える。
- 置信区间(信頼区間、Confidence Interval)に関して。母数からサンプルを引っ張ってきたときに、そのサンプルの中に母数が入る確率の区間のこと。 置信区间では、95%をよく使う。95%の確率で、母数が 含まれる。
- ただし、N、つまりサンプル数が少ない時、一般には30、t分布を使い、サンプル数が少ない時の誤差を考慮する。
- t分布は、標準正規分布よりも、厚尾になっている。分布図の両端が標準正規分布よりも厚くなっているということ(高くなっている)。つまり、同じxの値を取っても、t分布の方が範囲を広げている。
- このt分布の確率やxの値は、excelのtdist、tinvの式を使って出す。自由度の設定は、N-1。(サンプル数から1引く)。理由は良く分からないが、これも覚えれば良し。
- 信頼区間の詳細情報はコチラ。
推定の領域に入り、むずかしくなってきました(涙)。予習はしてきたものの、復習しないといけませんね。授業の録音も何回も聞きました。。。