R平方(R-Square)」タグアーカイブ

必須科目「データ分析と統計決定」 振り返りVol.7(2019/11/3)

テーマ「简单线性回归模型(単回帰モデル)のつづきと回归模型的预测与诊断」

  • 前回は、単回帰モデルで、R平方(R-Square)により、β-hatとy-hatとの相関性を検証できるということを習った。今回は、その続き。
  • F检验(F検定)はy=α+β・x+eとした回帰モデルがあるときに、変数Xとyの関係性を検証するもの。H0:関係性がない H1:関係性がある、とした時のF統計量は下記の通り。
  • F=(SSR÷1)÷{SSE÷(n-2)}、F値が大きくなればなるほど、H0を拒否できる。 ※SSR(Sum of Squard Residuals)=回归平方和、SSE(Sum of Squared Errors of Prediction)=残差平方和
  • 補足、MSR=SSR÷1、MSE=SSE÷(n-2)と呼ぶ。Mはmeanで平均のこと。詳細は下記図の通り。
  • SSEは、回帰モデルとの差であるから、SSEが大きい=回帰モデルとの乖離が大きい場合は、F値は、小さくなり、H0を拒否できない。F値が大きいということは、SSEが小さい=回帰モデルとの乖離が少ないということで、H0を拒否できる。
  • ExcelでのF分布の確率や数値を出すことが可能。確率Prob=fdix(x,df1,df2)X=finv(prob,df1,df2)。このdf1は、SSTの自由度、df2はSSRの自由度。
  • minitabを使ったF値の算出方法は下記動画1)参照。また、単回帰モデルを出す式(最小二乘方法)はexcelで求められる。詳細はコチラ
  • 资本资产定价模型(CAPM=Capital Asset Pricing Model)。回帰モデルで投資の組み合わせでリスクを管理するのが、CAPM。
  • minitabを使って、Armandのピザの事例を使って、残差0を基準にして、拟合值(y-hat)と残差の関係を表す残差図を出してみる。(下記参照)残差0に近いほど、回帰モデルに近いことを表す。今回算出した分散図をみると、特別な規則はなく、ランダムで数字がならんでいる。動画2)参照
  • さらに、yとxに、xの2乗も含めた二次曲線回帰の数値を調べてみる。
  • ちなみに、この二次曲線回帰は、残差图が二次曲線になっている場合の回帰モデル化のために使う。
  • 今度は、またminitabを使って、広告と売上の相関を調べてみる(事例Superbrands)。同様に、残差图を出してみると、拟合值(y-hat)の数値が大きくなればなるほど、残差が大きくなり、0と離れていく(散开)。画像2)3)参照。
  • この乖離のことを、异方差(分散不均一性)、英語では、Heteroskedasticityという。つまり、単回帰のモデルが成立していないということ。
  • これは、例えば、収入と消費額の関係を見ればわかりやすい。収入と消費額の単回帰モデルが成立するのか?いや、成立しない、収入が増えれば、消費額が増え続けるかといえばそうではない。ある人は、収入と比例して消費額が増えるかもしれないが、ほとんどの人は、比例して増えない。収入が増えれば増えるほど、消費額と乖離が出てくるのだ。
  • この异方差があるときに、log変換をする。minitabでは、コマンド>let 列名loge(xの列名)で行える。log変換した後の値をyとして、x(AD)との関係を出すと、残差に対して平行となる。画像4)
  • では、回帰モデルがどのように変わったのか?log変更前は、SALES(y-hat) = 4.09 + 0.196 AD、変更後は、Insales(y-hat) = 1.61 + 0.0149 AD。ADの変数を見ると、0.196から0.0149へ下がった。つまり、変更前は、ADが1増えると、SALESが0.196=約20%上がるというモデルだったが、変更後は、ADが1増えても、SALSは、0.0149=0.5%しから上がらないということ。
  • 最後に広告と売上の別事例。回归→二次曲线回归→对数回归を検証。下記動画4)参照

今回は、minitabを使って、色々と検証をしましたので、わすれないように、自分でも動画をつくって、振り返りができるようにしました。二次曲線回帰、log回帰などの計算式は授業では、飛ばして、検証方法を説明していました。まあ、細かい計算式は、今後も使うことがないので、いいかなと。考え方、検証方法をしっかり頭の中に入れておきたいと思います。

画像1)F值とSSR、SSE、自由度の関係性
動画1)minitabでの単回帰関連データ抽出
動画2)minitabで残差图を抽出する方法
動画3)minitabを使って、二次曲線回帰を抽出する。
画像2)残差0で設定した拟合值との関係を表した残差图。 右に行けば行くほど、モデルと数値が離れていくのがわかる。
画像3)SALES(y)とAD(x)との関係を表した残差图。青線は、単回帰モデル。右に行けば行くほど、モデルと数値が離れていくのがわかる。
画像4) log変換後の残差图。残差0に対して、平行になっている。
動画5) 回归→二次曲线回归→对数回归を検証
前回、P値は終了しているのですが、分かりやすい動画を見つけたので。
作业 F值,R-Squareなどの関係が分かる。

必須科目「データ分析と統計決定」 振り返りVol.6(2019/10/27)

テーマ「简单线性回归模型(単回帰モデル)」

minitabでのR-Sq算出
  • 単回帰モデルの数式は、y=f(x)+e、eは误差で、一つの参数。y=α+β・x+e
  • xを自变量(independent variable)、yを因变量(dependent variable)と呼ぶ。
  • 相関関数は、分散がわかるだけで、因数は分からない。
  • 単回帰モデルで出力したy-hatと実際のyの差を、残差(Residual)と呼ぶ。
  • このResidualを少なくすることで、最適な 単回帰モデルが求められる。
  • そのためには、 y-hat(拟合值)と実際のyの差であるResidualを平方する、最小二乘法を使う。
  • 単回帰モデルの各参数は、標本からきているので、母数との差が生じる(样本误差)。
  • β-hatは、βの標本平均のこと。
  • ピザ屋の周辺にある大学の生徒数xが、売上yに影響を与えるのかを、 単回帰モデルy=α+β・xで定義した時、本当にこのモデルが成り立つかを検証するには、βが0でない、ということを検定すればよい。
  • つまり、検定の方法に則り、H0:β=0、H1≠0で設定。
  • まずは、SE(β-bar)である标准误差を出す。そして、標準化の式で、t値を出す。
  • t=(β-bar-0)/SE(β-bar)
  • また、Nが少なく、t分布で知らべるときは、N-1ではなく、参数が2つ(α、β)あるため、N-2とする。また、このt分布は、双尾(両側検定)となる。
  • 上記の 単回帰モデルを、N=10の時、y-hat=60+5.00xとすると、SE(β-bar)=0.58となり、t値が8.62であるならば、excelでTDIST(8.62,8,2)で計算すると、標準正規分布時は、0.002519%となる。
  • ゆえに、p値は、0.002519%×0.58=0.00146102%と非常に小さくなり、第一类错误を犯す危険がない、つまりH0を拒絶することが出来る。
  • 上記、大学の生徒数xとピザ屋の売上yおよび 単回帰モデルy-hatの相関関係を調べる。minitabの命令コマンドcorrを使うと、xとyの相関指数は、0.95。xと残差(residual,yとy-hatの差)の相関指数は、0.00。では、xとy-hatの相関指数は?答えは、1.0、一次直線のため。
  • また、 残差(residual,yとy-hatの差) の平均値は0となる。
  • 模型的目的是为了解释变异、 単回帰モデルの目的は、変化を説明すること。ゆえに、単回帰モデルの変数の範囲を定義するために、平方根を使う。
  • 実際のデータと平均の差の平方根をSST( Total sum of squared )、 回帰モデルと平均の差の平方根を SSR(sum of squared residuals)、 実際のデータと回帰モデルとの平方根を SSE(sum of squared errors of prediction)と呼ぶ。式は、SST=SSR+SSE。SST、SSR、SSEの関係の参考資料はコチラ
  • 上記の事例でいうと、SST(15,730)=SSR(14,200)+SSE(1,530) となり、SSR/SST=90.3%となり、この数値を、R平方(R-SquareもしくはR二乗)と呼ぶ。90.3%のxはy-hatと関係するが、残り10%はxとy-hatの関係性はないということ。R-Squareの参考資料。
  • 例えば、住宅価格へ影響を与える要素のR-Sqを見たときに、房龄15%、面积68%となれば、これは、面积の方が、房龄よりも住宅価格に影響を与えているといえる。では、15%+68%=83%を房龄&面积で影響を与えていると言えるのか?No、なぜならば、おたがいに重複しt影響を与えている部分があるから。

授業中は、結構もやもやして聞いていましたが、こうやって整理して初めて分かったことが多かったです。。。もうすぐに次の授業が迫っているので、できるだけ予習しないとダメですね。

教科書