必須科目「データ分析と統計決定」振り返りVol.4（2019/10/15）

テーマ「统计推断的基本思想（統計推定の基本概念）」

前回の振り返り、µ（平均値）、σ（標準偏差）を求めて、xの確率を求める方法など。
母数をすべて把握することは、現実世界では極めて不可能なので、母数から样本（サンプル）を取り出して、推定することが重要。
抽样方式（サンプル抽出方法）は、色々あるが、今回は随机抽样（Random sampling）を前提とする。
例えば、母数N5000から、1サンプルn100を抽出して、サンプルの平均値s、標準偏差σ（x)を求める。この平均値xや標準偏差sは母数の平均値µ、標準偏差σに近いと思われる。
ただ、サンプル100個を1回目、2回目で取得した時の平均値や標準偏差は毎回異なる。
ゆえに、このサンプルの平均値x-barおよび各平均値の標準偏差である標準誤差（Standard Error、サンプルから得られる推定量そのもののバラつきを表すもの。解説はコチラ。）から分布を求めれば、その確率を利用して、母数の平均値や標準偏差の範囲を推定できる。
そして、Random samplingしたサンプルは、正規分布に従う。これを、”中心极限定理”と呼ぶ。x-bar～N(µ, σ2／n）　※σ2はσの二乗のこと
標準誤差を求める公式は、 SE(x）＝σ／√n。nが大きくなればなるほど、母数のσに近づく。※σは母数の標準偏差、nは、サンプル数。ただし、条件が2つ。条件1：母数が無限母体であること（有限と無限の違い）。条件2：n／N≦0.05になることが条件。
なぜ、このような公式になるかは理解しなくてOK。
标准误差 SE（x）＝σ／√n の公式の中で、σ（母数の標準偏差）を知らない場合がほとんどなので、σをs（サンプルの標準偏差）に代用してもよい。
つまり、SE（x）＝s／√ｎ。
今度は、サンプルの中に出るある事象の比率をp*（样本比率，標本比率という）、母数のある事象の比率をpとすると、样本比率は、p*＝x／nとなる。※xは、サンプルの中の事象発生数。
抽样分布は、p*~N（p、p(1-p)／n）。样本比率の标准误差は、SE(p*）＝√p(1-p)／n、となる。これも、このまま覚える。
置信区间（信頼区間、Confidence Interval）に関して。母数からサンプルを引っ張ってきたときに、そのサンプルの中に母数が入る確率の区間のこと。置信区间では、95％をよく使う。95％の確率で、母数が含まれる。
ただし、N、つまりサンプル数が少ない時、一般には30、t分布を使い、サンプル数が少ない時の誤差を考慮する。
t分布は、標準正規分布よりも、厚尾になっている。分布図の両端が標準正規分布よりも厚くなっているということ（高くなっている）。つまり、同じｘの値を取っても、t分布の方が範囲を広げている。
このt分布の確率やxの値は、excelのtdist、tinvの式を使って出す。自由度の設定は、N-1。（サンプル数から１引く）。理由は良く分からないが、これも覚えれば良し。
信頼区間の詳細情報はコチラ。

推定の領域に入り、むずかしくなってきました（涙）。予習はしてきたものの、復習しないといけませんね。授業の録音も何回も聞きました。。。

40代からの中国北京MBA

北京大学　光華管理学院

必須科目「データ分析と統計決定」振り返りVol.4（2019/10/15）

テーマ「统计推断的基本思想（統計推定の基本概念）」

コメントを残すコメントをキャンセル

テーマ「统计推断的基本思想（統計推定の基本概念）」

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル