統計学」タグアーカイブ

必須科目「データ分析と統計決定」 振り返り テスト対策

问题)夏普比(Sharp Ratio)是什么?

  • 投资收益率超过无风险收益率的概率。
  • 如果夏普比越大的话,该投资的收益率超过无风险收益率的可能性也就越大。
  • SR=(x-bar – Rf) / s *x-bar : x平均值, Rf : Risk Free,一般来说债券的利益率, s : 标准差
  • r~N( µ, σ二乗 )

问题)如何计算初始金额为A的投资的VaR?

  • 假设收益率x是正态分布,满足x~N(µ,σ2乗)
  • 则z=(x- µ)/ σ服从标准正态分布,即z ~N(0,1)
  • 99%VaR,则α=0.01。
  • 99%VaR = A*P1=A*(µ – 2.33*σ)

问题)在正态分布下,SPAN的值是什么?

  • SPAN=P95-P5; σ=0.05。
  • P95=µ+σ*1.64, P5=µ-σ*1.64
  • SPAN=(µ+σ*1.64) – (µ-σ*1.64) = 3.28*σ

问题)正态分布的额特点是什么?

  • 落在距离均值1倍的标准差内的概率是0.68。
  • 落在距离均值1.96倍的标准差内的概率是0.95
  • 落在距离均值2倍的标准差内的概率是0.993
  • 落在距离均值3倍的标准差内的概率是0.997

问题)中心極限定理是什么?

  • 不管总体的分布是什么形态,如果它的期望值或者平均值是μ,方差是σ平方,只要样本的容量n非常大,样本的平均值总是近似服从正态分布。
  • 標本を抽出する母集団が平均µ、分散σの二乗の正規分布に従っていても、なくても、抽出するサンプルサイズが大きくなるにつれて、標本平均の分布は、平均µ、分散σ二乗/nの正規分布N(μ, σ二乗/n )に近づく。

问题)置信区间(Confidence Interval)的含义是什么?

  • 该区间被称为总体均值的95%的置信区间,95%是置信度或置信水平。
  • 抽取100个样本,计算出100个样本的平均值和100个样本的区间,那么,它们当中至少应该有(1-α),因此,可以以( 1-α )的置信度(把握)相信µ落在一个这样的区间里面。

问题) t分布和正态分布的区别是什么?

  • t分布与正态分布形状相像,但是峰值比正态分布低,尾部比正态分布厚,所以对于相同的置信区间。
  • 正态分布比t分布的置信水平更高,而在相同的置信水平下,t分布的置信区间相比正态分布更大。
  • t分布的自由度越高,越接近标准正态分布。

问题)什么时候才需要用到 t 分布?

  • 对于n小于30的情况,即小样本的时候,样本均值的抽样分布不能用正态分布来近似,此时需要用t分布去近似。

问题)自由度是什么?

  • 可以自由取值的数据的数量。

问题)“假设检验”是什么?

  • 从标本验证总体数据的假设的统计学的方法。

问题)第一类错误和第二类错误的差异是什么?

  • 第一类错误:H0是真的,但是你选择H1。
  • 第二类错误:H0是假的,但是你选择H0。

问题)Neymann-Pearson原则是什么?

  • 不可能找到一个两类错误都不犯的检验。
  • 二つの間違いのいずれかを探すことができないことは、間違いを犯すことがないという検定。

问题)P-值是什么?

  • 原假设成立时,你能够观测到如此极端的样本的概率。犯第一类错误的概率。

问题)F检验是什么?

  • 检验变量X对Y有没有解释作用。F的值足够的时候拒绝原假设H0。F值=(SSR/1)÷(SSE/n-2)

问题)最小二乘法是很么?什么时候用它?

  • 检验x和y的关系的函数正确不正确的方法。2つのセットのデータの組(x、y)がn個与えられた状況で、xとyに直線的な関係があると推察できるときに、もっともと相応しい直線を求めるための方法。

问题) 异方差(分散不均一性,Heteroskedasticity)是什么?

  • 回归model(y-hat)和实际值(y)的残差越来越离开的情况

问题)资产定价模型(CAPM)是什么?

  • Capital Asset Pricing Managemen

问题)虚拟变量(Dummny Variable)是什么?

  • これは、数字を持たない男女、季節などを因数として組み込む時に使う。例えば、男:0、女:1と設定する。

问题)R-Square(R平方)=100%是最好的model吗?

问题)公式

  • 样本比率的抽样分布:p-bar~N(p, p(1-p)/n )
  • SE(p-bar)=√p(1-p)/n

必須科目「データ分析と統計決定」 振り返りVol.8(2019/11/10)

テーマ「多远回归模型」

今日で、統計学の授業も終了です。最後は、重回帰分析です。

  • 振り返り。认知(認知)&预测(予測)の違いについて。认知は、モデルy=α+βxがあったとしたら、xとyは関係があるのか?そしてそれはどのようなモデルなのか?ということを理解すること。预测は、そのモデルをもとに、数値を予測すること。モデルの確証性は関係ない。
  • Y=飲料売上は、X1=消費者収入、X2=飲料価格、X3=販促費用、X4=広告費用、X5=食品売上というYに影響を与える5つの因数を持つとする。X2のYに対する影響を考えるときに、X2がその他の因数Xに与える影響度を踏まえることを、控制变量と呼ぶ。
  • YとXの関係を調べるためには、STEP1)相関係数を出す。STEP2)一元回归(単回帰)で係数を出す。STEP3)多远回归(重回帰)で係数を出す、というSTEPを踏む。
  • minitabを使って、多远回归模型を出したときに、すべての因数Xを選択すべきか?どの因数を選択し、どの因数を拒否すべきか?R-Sqは因数動詞の関係を表すものではない。R-Sqを調整する必要がある。
  • R-Sqは、SSR/SST=(SST-SSE)/SST=1-SSE/SSTとなる。これに調整を加える。SSE、SSTに自由度で割って調整する。 この調整はF検定。 F= 1-{SSE/(n-k-1)÷SST/(n-1)} となる。これは、R-Sqは、平方和の割合だったのに対して、方差(分散)の割合となる。※SSE、SSTはX1からXkまでの合計値だから、平方和。それに対して、調整(F検定)は、SSE、SSTに、Xの数から自由度を引いた数字で割っているので、分散となる。
  • そして、minitabで算出したR-Sq【調整】の高いモデルを採用する。また、因数は、t値を見て、1以下であれば、拒否する。条件削除前は、下記画像1参照(R-Sq71.7%)。削除後は、下記画像2参照(R-Sq71.9%)。
  • なお、このR-Sq調整の回归方程の検定モデルは、F検定であるが、H0=β1=β2…=βk=0(つまり、Yに影響を与えない)とする。
  • 次は、虚拟变量(Dummy Variable)。これは、数字を持たない男女、季節などを因数として組み込む時に使う。例えば、男:0、女:1と設定する。ただ、男女のように、選択肢が2つしかない場合は、問題ないが、季節のように、4つの場合、春:1夏:2秋:3冬:4と設定して良いかというとそうではない。季節の場合は、4つの変数を作る。春YS:1、春No:1、夏YES:1、夏NO:0など。注意点は、minitabで回帰分析をしたときに、回帰モデルから4番目の虚拟变量は削除される。それは、1-3番目の虚拟变量に4番目の要素が入っているからである。また、算出された虚拟变量の一番数字をゼロに戻す、つまり選択から外して、算出すると同様な虚拟变量を作り出すことが出来る。下記動画1参照
  • 最後は再度、事例を使って確認。Vol:食品商品の売上高に対して、Promp:商品の平均単価、Feat:広告量、Disp:陳列割合の3つの変数があるデータがある。これをminitabで重回帰モデルを算出すると、LVOL = 17.2 – 0.956 PROMP + 0.0101 FEAT + 0.00359 DISPと出た。広告量と陳列割合が固定ならば、商品単価が上がると商品売上は落ちるということ。あと、この重回帰モデルが正しいのか、一般的な状況で考えてみる。陳列割合が増る→売上は上がる、広告量が減る→売上は下がる、陳列割合が増える→広告量は減る。これを立証するには、各相関係数を出せばよい。
  • 最後に教授から。授業で学んだモデルはそのまま使えない。現在にあったモデルを作らないといけない。現在のビッグデータ時代、データはどんどん溜まる。だから、そのデータを統計学を使い、方向性を見出す。そして、AIは統計学を基に発展して、ビッグデータを支える。仏教の言葉とHuaweiの任正非のインタビューを紹介。下記画像3)と動画2)参照。

テストは2週間後なので、少し時間があきますが、しっかり復習して挑みたいと思います。

画像1)因数削除前
画像2)因数削除後、R-Sqが上がっている。
動画1)minitabで重回帰の季節因数の虚拟变量を算出
動画2)minitabを使った広告の売上への貢献を重回帰モデル算出

動画3)Huawei任正非のインタビュー、統計学の話は8分過ぎから。

必須科目「データ分析と統計決定」 振り返りVol.7(2019/11/3)

テーマ「简单线性回归模型(単回帰モデル)のつづきと回归模型的预测与诊断」

  • 前回は、単回帰モデルで、R平方(R-Square)により、β-hatとy-hatとの相関性を検証できるということを習った。今回は、その続き。
  • F检验(F検定)はy=α+β・x+eとした回帰モデルがあるときに、変数Xとyの関係性を検証するもの。H0:関係性がない H1:関係性がある、とした時のF統計量は下記の通り。
  • F=(SSR÷1)÷{SSE÷(n-2)}、F値が大きくなればなるほど、H0を拒否できる。 ※SSR(Sum of Squard Residuals)=回归平方和、SSE(Sum of Squared Errors of Prediction)=残差平方和
  • 補足、MSR=SSR÷1、MSE=SSE÷(n-2)と呼ぶ。Mはmeanで平均のこと。詳細は下記図の通り。
  • SSEは、回帰モデルとの差であるから、SSEが大きい=回帰モデルとの乖離が大きい場合は、F値は、小さくなり、H0を拒否できない。F値が大きいということは、SSEが小さい=回帰モデルとの乖離が少ないということで、H0を拒否できる。
  • ExcelでのF分布の確率や数値を出すことが可能。確率Prob=fdix(x,df1,df2)X=finv(prob,df1,df2)。このdf1は、SSTの自由度、df2はSSRの自由度。
  • minitabを使ったF値の算出方法は下記動画1)参照。また、単回帰モデルを出す式(最小二乘方法)はexcelで求められる。詳細はコチラ
  • 资本资产定价模型(CAPM=Capital Asset Pricing Model)。回帰モデルで投資の組み合わせでリスクを管理するのが、CAPM。
  • minitabを使って、Armandのピザの事例を使って、残差0を基準にして、拟合值(y-hat)と残差の関係を表す残差図を出してみる。(下記参照)残差0に近いほど、回帰モデルに近いことを表す。今回算出した分散図をみると、特別な規則はなく、ランダムで数字がならんでいる。動画2)参照
  • さらに、yとxに、xの2乗も含めた二次曲線回帰の数値を調べてみる。
  • ちなみに、この二次曲線回帰は、残差图が二次曲線になっている場合の回帰モデル化のために使う。
  • 今度は、またminitabを使って、広告と売上の相関を調べてみる(事例Superbrands)。同様に、残差图を出してみると、拟合值(y-hat)の数値が大きくなればなるほど、残差が大きくなり、0と離れていく(散开)。画像2)3)参照。
  • この乖離のことを、异方差(分散不均一性)、英語では、Heteroskedasticityという。つまり、単回帰のモデルが成立していないということ。
  • これは、例えば、収入と消費額の関係を見ればわかりやすい。収入と消費額の単回帰モデルが成立するのか?いや、成立しない、収入が増えれば、消費額が増え続けるかといえばそうではない。ある人は、収入と比例して消費額が増えるかもしれないが、ほとんどの人は、比例して増えない。収入が増えれば増えるほど、消費額と乖離が出てくるのだ。
  • この异方差があるときに、log変換をする。minitabでは、コマンド>let 列名loge(xの列名)で行える。log変換した後の値をyとして、x(AD)との関係を出すと、残差に対して平行となる。画像4)
  • では、回帰モデルがどのように変わったのか?log変更前は、SALES(y-hat) = 4.09 + 0.196 AD、変更後は、Insales(y-hat) = 1.61 + 0.0149 AD。ADの変数を見ると、0.196から0.0149へ下がった。つまり、変更前は、ADが1増えると、SALESが0.196=約20%上がるというモデルだったが、変更後は、ADが1増えても、SALSは、0.0149=0.5%しから上がらないということ。
  • 最後に広告と売上の別事例。回归→二次曲线回归→对数回归を検証。下記動画4)参照

今回は、minitabを使って、色々と検証をしましたので、わすれないように、自分でも動画をつくって、振り返りができるようにしました。二次曲線回帰、log回帰などの計算式は授業では、飛ばして、検証方法を説明していました。まあ、細かい計算式は、今後も使うことがないので、いいかなと。考え方、検証方法をしっかり頭の中に入れておきたいと思います。

画像1)F值とSSR、SSE、自由度の関係性
動画1)minitabでの単回帰関連データ抽出
動画2)minitabで残差图を抽出する方法
動画3)minitabを使って、二次曲線回帰を抽出する。
画像2)残差0で設定した拟合值との関係を表した残差图。 右に行けば行くほど、モデルと数値が離れていくのがわかる。
画像3)SALES(y)とAD(x)との関係を表した残差图。青線は、単回帰モデル。右に行けば行くほど、モデルと数値が離れていくのがわかる。
画像4) log変換後の残差图。残差0に対して、平行になっている。
動画5) 回归→二次曲线回归→对数回归を検証
前回、P値は終了しているのですが、分かりやすい動画を見つけたので。
作业 F值,R-Squareなどの関係が分かる。

必須科目「データ分析と統計決定」 振り返りVol.6(2019/10/27)

テーマ「简单线性回归模型(単回帰モデル)」

minitabでのR-Sq算出
  • 単回帰モデルの数式は、y=f(x)+e、eは误差で、一つの参数。y=α+β・x+e
  • xを自变量(independent variable)、yを因变量(dependent variable)と呼ぶ。
  • 相関関数は、分散がわかるだけで、因数は分からない。
  • 単回帰モデルで出力したy-hatと実際のyの差を、残差(Residual)と呼ぶ。
  • このResidualを少なくすることで、最適な 単回帰モデルが求められる。
  • そのためには、 y-hat(拟合值)と実際のyの差であるResidualを平方する、最小二乘法を使う。
  • 単回帰モデルの各参数は、標本からきているので、母数との差が生じる(样本误差)。
  • β-hatは、βの標本平均のこと。
  • ピザ屋の周辺にある大学の生徒数xが、売上yに影響を与えるのかを、 単回帰モデルy=α+β・xで定義した時、本当にこのモデルが成り立つかを検証するには、βが0でない、ということを検定すればよい。
  • つまり、検定の方法に則り、H0:β=0、H1≠0で設定。
  • まずは、SE(β-bar)である标准误差を出す。そして、標準化の式で、t値を出す。
  • t=(β-bar-0)/SE(β-bar)
  • また、Nが少なく、t分布で知らべるときは、N-1ではなく、参数が2つ(α、β)あるため、N-2とする。また、このt分布は、双尾(両側検定)となる。
  • 上記の 単回帰モデルを、N=10の時、y-hat=60+5.00xとすると、SE(β-bar)=0.58となり、t値が8.62であるならば、excelでTDIST(8.62,8,2)で計算すると、標準正規分布時は、0.002519%となる。
  • ゆえに、p値は、0.002519%×0.58=0.00146102%と非常に小さくなり、第一类错误を犯す危険がない、つまりH0を拒絶することが出来る。
  • 上記、大学の生徒数xとピザ屋の売上yおよび 単回帰モデルy-hatの相関関係を調べる。minitabの命令コマンドcorrを使うと、xとyの相関指数は、0.95。xと残差(residual,yとy-hatの差)の相関指数は、0.00。では、xとy-hatの相関指数は?答えは、1.0、一次直線のため。
  • また、 残差(residual,yとy-hatの差) の平均値は0となる。
  • 模型的目的是为了解释变异、 単回帰モデルの目的は、変化を説明すること。ゆえに、単回帰モデルの変数の範囲を定義するために、平方根を使う。
  • 実際のデータと平均の差の平方根をSST( Total sum of squared )、 回帰モデルと平均の差の平方根を SSR(sum of squared residuals)、 実際のデータと回帰モデルとの平方根を SSE(sum of squared errors of prediction)と呼ぶ。式は、SST=SSR+SSE。SST、SSR、SSEの関係の参考資料はコチラ
  • 上記の事例でいうと、SST(15,730)=SSR(14,200)+SSE(1,530) となり、SSR/SST=90.3%となり、この数値を、R平方(R-SquareもしくはR二乗)と呼ぶ。90.3%のxはy-hatと関係するが、残り10%はxとy-hatの関係性はないということ。R-Squareの参考資料。
  • 例えば、住宅価格へ影響を与える要素のR-Sqを見たときに、房龄15%、面积68%となれば、これは、面积の方が、房龄よりも住宅価格に影響を与えているといえる。では、15%+68%=83%を房龄&面积で影響を与えていると言えるのか?No、なぜならば、おたがいに重複しt影響を与えている部分があるから。

授業中は、結構もやもやして聞いていましたが、こうやって整理して初めて分かったことが多かったです。。。もうすぐに次の授業が迫っているので、できるだけ予習しないとダメですね。

教科書

必須科目「データ分析と統計決定」 (2019/1020)振り返りVol.5(2019/10/20)

テーマ「假设检验的基本思路(仮説検定の基本概念)」

前回の振り返り
  • 前回の振り返り
  • 假设检验の基本概念は、H0:原假设(帰無仮説、null hypothesis) H1备择假设(alternative)。
  • H0:原假设(null hypothesis) があっているにも関わらず、棄却される場合を、“第一类错误”。H1が正しいのだが、H0が選択される(つまり、H1が棄却される)ことを“第二类错误”、この2つの間違いを“两类错误”と呼ぶ。(ネイマンピアソン原則)
  • H0には、棄却したい仮説、H1には、その反対の棄却したくない仮説を入れる。※とおもったいてが、中文の教科書は下記の通り。
  • ※色々なデータを集めた研究の仮説に関しては、 H0には、棄却したい仮説、H1には、その反対の棄却したくない仮説 を設定。例えば、新開発したエンジンの性能が、旧来型エンジンの燃費 24㎞/ℓ よりも、良いかどうか? H0≦24㎞/ℓ H1> 24㎞/ℓ
  • ※各データが真実であるという前提の場合、仮設検定を使って、このような仮説設定に異議を唱え、統計結果が仮定の不正確性を支持するかどうかを確定する。この場合は、H0に、正しいと思っている仮説を設定。H1には、その逆の仮説を設定。
  • そして、第一类错误の発生確率の基準値を、”显著水平(有意水準、level of significant)”と呼ぶ。
  • 事例1、今年のテレビ視聴平均時間は、N=60、標本平均X bar=14.5h、样本标准差3.8であった。では、来年は13.3hであると言えるか?
  • 标准误差は、SE(X bar)=3.8/√60=0.49。14.5-13.3=1.2、ゆえに、1.2÷0.49=2.45。t分布のnormdist(2.45,0,1,1)*2で0.014、distを使うと、確率は、0.017でかなり小さい。
  • この確率のことをP值(p-value)と呼ぶ。 第一类错误の発生確率のこと。 0.017は、第一类错误 の発生確率は低い、ゆえに、H0を棄却することができる。※この時のH0は、平均値が今年と来年の視聴率平均が”同じ”。

テーマ「基于双样本的检验」

  • 2つの標本があるときの検定に関して。
  • IPOした494社の各財務指標4点を集約して、STと非STの特徴を見つけたい。
  • ST(グループ0)と非ST(グループ1)という2つのグループに分けて、4つの指標の違いがあるのか検証をする。
  • H0:µ0=µ1、H1 :µ0≒µ1とする。H1が棄却されれば、H0成立となる。
  • ゆえに、グループ0とグループ1の差のP值を求める。
  • X bar0=0.29、X bar1=0.16とすると、0.29-0.16=0.13、これをグループ0とグループ1の标准误差の差を求めて、割る。
  • グループ0とグループ1の标准误差の差は、2.85。このP値を計算すると、2*normdist=4.3%。平均からの距離が2.85±で離れ散るので、確率は2倍する。
  • ワイン農作の事例、夏や冬の降水量など、4つの要因がワインの価格に影響する。

ということで、次回以降は、回帰分析にはいっていきます。今回は、授業の中で、「红楼梦」の前半後半で作者が異なっているのか、頻出単語で分析する、というような事例が紹介されました。その際に、「红楼梦」を読んだことがあるかと聞かれ、「ありません!」。その後、「源氏物語のようなものだよ。読んだことある?」と聞かれ、また「ありません」と答えました。その場では、「源氏物語」と聞かれたことが分からなかった。。。もちろん、読んだことはあります。先生がせっかく聞いてくれたのに、中国語が分からないという。。。頑張りましょう!

红楼梦での作者同一分析
助教授による補講

必須科目「データ分析と統計決定」 振り返りVol.4(2019/10/15)

テーマ「统计推断的基本思想(統計推定の基本概念)」

次回の宿題(グループワーク)
  • 前回の振り返り、µ(平均値)、σ(標準偏差)を求めて、xの確率を求める方法など。
  • 母数をすべて把握することは、現実世界では極めて不可能なので、母数から样本(サンプル)を取り出して、推定することが重要。
  • 抽样方式(サンプル抽出方法)は、色々あるが、今回は随机抽样(Random sampling)を前提とする。
  • 例えば、母数N5000から、1サンプルn100を抽出して、サンプルの平均値s、標準偏差σ(x)を求める。この平均値xや標準偏差sは母数の平均値µ、標準偏差σに近いと思われる。
  • ただ、サンプル100個を1回目、2回目で取得した時の平均値や標準偏差は毎回異なる。
  • ゆえに、このサンプルの 平均値x-barおよび 各平均値の標準偏差である標準誤差 (Standard Error、 サンプルから得られる推定量そのもののバラつきを表すもの。解説はコチラ。 ) から分布を求めれば、その確率を利用して、母数の平均値や標準偏差の範囲を推定できる。
  • そして、Random samplingしたサンプルは、正規分布に従う。これを、”中心极限定理”と呼ぶ。x-bar~N(µ, σ2/n) ※σ2はσの二乗のこと
  • 標準誤差を求める公式は、 SE(x)=σ/√n。nが大きくなればなるほど、母数のσに近づく。※σは母数の標準偏差、nは、サンプル数。ただし、条件が2つ。条件1:母数が無限母体であること(有限と無限の違い)。条件2:n/N≦0.05になることが条件。
  • なぜ、このような公式になるかは理解しなくてOK。
  • 标准误差 SE(x)=σ/√n の公式の中で、σ(母数の標準偏差)を知らない場合がほとんどなので、σをs(サンプルの標準偏差)に代用してもよい。
  • つまり、SE(x)=s/√n。
  • 今度は、サンプルの中に出るある事象の比率をp*(样本比率,標本比率という)、母数のある事象の比率をpとすると、样本比率は、p*=x/nとなる。※xは、サンプルの中の事象発生数。
  • 抽样分布は、p*~N(p、p(1-p)/n)。样本比率の标准误差は、SE(p*)=√p(1-p)/n、となる。これも、このまま覚える。
  • 置信区间(信頼区間、Confidence Interval)に関して。母数からサンプルを引っ張ってきたときに、そのサンプルの中に母数が入る確率の区間のこと。 置信区间では、95%をよく使う。95%の確率で、母数が 含まれる。
  • ただし、N、つまりサンプル数が少ない時、一般には30、t分布を使い、サンプル数が少ない時の誤差を考慮する。
  • t分布は、標準正規分布よりも、厚尾になっている。分布図の両端が標準正規分布よりも厚くなっているということ(高くなっている)。つまり、同じxの値を取っても、t分布の方が範囲を広げている。
  • このt分布の確率やxの値は、excelのtdist、tinvの式を使って出す。自由度の設定は、N-1。(サンプル数から1引く)。理由は良く分からないが、これも覚えれば良し。
  • 信頼区間の詳細情報はコチラ

推定の領域に入り、むずかしくなってきました(涙)。予習はしてきたものの、復習しないといけませんね。授業の録音も何回も聞きました。。。

必須科目「データ分析と統計決定」振り返りVol.3(2019/9/22)

テーマ「確率変数」

  • 確率には、3種類ある。1つは、サイコロの目が出る確率を求める古典的確率。2つ目は、アメリカ大統領選挙で民主党が勝つ確率を求める主観的確率。3つ目は、上海マーケットの利益率が10%を超える確率を求める統計的確率。
  • 確率変数には、2つの種類がある。1つ目は、離散型。例えば、サイコロの目が出る目を求める確率で、取りうる値が有限。2つ目は、連続型。例えば、100M走のタイムを求める確率で、取りうる値が無限。※参考記事
  • 平均値はµ(ミュー)、標準偏差はσ(シグマ)。
  • 二項分布。 選択肢が0か1しかない場合、N回のうち、0もしくは1を選択する回数は何回になるのかを表した確率分布。※参考記事
  • 泊松分布(ポアソン分布)。二項分布は、選択肢が0もしくは1(いわるゆベルヌーイ分布)の2択でしたが、ポアソンは、離散値の確率分布。例えば、1時間以内に銀行に訪れる客数など。 1時間以内に銀行に訪れる客数 がµ人と分かっていれば、5人や10人訪れる客数を求めることができるというもの。※参考記事
  • 正規分布。これは連続型の確率分布で、分布が左右対称となる。
  • 正規分布の場合、-1σ≦x≦1σの場合、xは、68%の確率で、正規分布の中に納まる。 -1.96σ≦x≦1.96σの場合、xは、95%の確率 で、正規分布の中に納まる。
  • Excelを利用した確率などの求め方は下記の通り。※参考記事
  • Prob(確率)=normdist(x, μ, σ, 1)x:数値、μ:正規分布の平均値、σ:正規分布の標準偏差、1:すべての確率、正規分布は1となる。
  • X=norminv(prob, μ, σ)

ポアソン分布、正規分布を求める計算式をどのようなロジックで導き出しているかは、覚えなくて良いとのこと(汗)。どのような意味をもっているかを理解した上で、ポアソン分布や正規分布を出すツールが使えれば良いということでしょう。ロジックの解明をしたいところですが、そんな時間がないので、今回はパスします(笑)。

同級生のもらった鳥の手。美味しいんです。

必須科目「データ分析と統計決定」振り返りVol.2(2019/9/15)

テーマ「2つの変数の関係」

投資を題材に、変数の関係を統計学で表現していくというのがテーマでした。

  • 利益率8%と言われて、あなたはこの金融商品に投資するのか?8%でも、利率が大きく上下する商品もあれば、あまり変動しない商品がある。あなたら、どちらの商品に投資するのか?単純な利益率だけみても、意味がない。
  • その商品の利益率の標準偏差と平均利益率の関係を見てみる。
  • 金融商品の利益率の標準偏差は、利益率の上下動を表しており、リスク率とも言える。
  • 安全と思われる利益率を使い、シャープレシオを出して、最適な金融商品を導き出す。
  • 投資組合せ公式は、P=aA+(1-a)B。*Pはトータルの利益率、aおよび(1-a)は予算配分率、AとBは各商品の利益率。
  • 上記の投資組合せ公式を用いて、AとBの最適なポートフォリオ配分を出す。上記のPを二乗して、ルートを取れば、利益率の標準偏差=リスク率が出る。その際にAとBの相関係数を使う。参考記事
  • 相関係数の求め方は、共分散を各変数の標準偏差を掛けたもので割る。相関係数rは、-1≦r≦1。参考記事

標準偏差、分散など、計算式自体は、中学レベルでできるものですが、意味を理解した上で、しっかり復習していきたいと思います。

必須科目「データ分析と統計決定」振り返りVol.1(2019/9/8)

数据分析与统计决策 text

王明进教授が担当。有名な教授らしく、色々と冗談も交えながら、分かりやすく進める感じです。とはいえ、その冗談のほとんどがまだ理解できない状況ではありますが。。。

オリジナルのテキストが配布され、そのテキストを活用しながら授業が進んでいきます。参考テキストは、「ビジネスと経済統計」。授業は全8回で、最後はテストとなります。生徒の評価は、出席15%、残りは、小グループにわかれての宿題提出が35%、最後のテストが50%という割り振りです。

全8回と授業の数は多くないので、数学の公式や計算式を学ぶのではなく、統計学の概要を学びながら、どのように統計をビジネスの決定に生かしていくのかというのが本授業の大きな目的です。とはいえ、微分、積分、確率など数学の基礎を持っていないと、授業をしっかり理解することが出来なくなるのではないかと思います。それでは、簡単に振り返っていきます。

モデル化の思考、データの種類、統計における表記方法

一回目なので、かなり基礎的な話のみでした。

  • データ取得→各モデルを使い加工→決定、この3STEPが重要。
  • データ加工には、Minitab15を使う。そのほかには、SPSS、Stata、SAS、R、Pythonがある。
  • データの分布を、図を使い、どのような差異があるのか分析する。
  • 直方図(Histogram)。
  • 分布されるデータの位置の用語、平均数(Mean)中位数(Median)众数*最頻値(Mode)など。
  • 分布されるデータの変化に関する用語、方差*分散(Variance)标准值*標準偏差(Standard Deviation)全距或极差*範囲(Range)跨度*区間(Span)など。
  • 样本方差*不偏分散とは。
  • 标准值*標準偏差 の計算方法。
  • Box Plot図の有効性。

样本方差*不偏分散の計算式で、N-1で割るのですが、それはあまり考えなくて良いとのこと。全数の標準分散とサンプルから出す不偏分散の違いなのですが、私はこの違いがいまだに分かりません(涙)。もう一度、勉強してみます。→統計学における分散と不偏分散 例題でわかりやすく解説。