Easy statistics

Easy statisticsはすぐに使えるデータの可視化・分析ツールです。データの箱ひげ図散布図ヒストグラム主要な統計量回帰分析結果、およびt検定などの各種検定結果をまとめて表示します。縦方向・横方向、適当にデータを入力しても、それなりに解釈して結果を表示します。Easy statisticsに関する詳しい情報は、Graviness blogも参考にしてください。

Box plot

箱ひげ図です。第3四分位数+1.5 IQRより大きい値、又は、第1四分位数-1.5 IQRより小さい値を●で表示します。

Scatter plot

各群の散布図です。母平均の95%信頼区間を薄い色の帯で表現しています。信頼区間の具体的な値は、Statisticsを参照してください。

Histogram

ヒストグラムです。

Statistics

各群の主要な統計量です。標準偏差(standard deviation)と変動係数(coefficient of variation)は、不偏分散(unbiased variance)を用いています。[0.025 mean 0.975]は、母平均の95%信頼区間です。シャピロ・ウィルク検定のp値は、有意水準より小さい値のとき、正規分布に従わない、となります。

Scatter plot matrix

散布図行列(SPLOM)です。Correlationは、相関係数\frac{\sum{\left ( x_i-\overline{x} \right )\left ( y_i-\overline{y} \right )}}{\sqrt{\sum{\left ( x_i-\overline{x} \right )^2}} \sqrt{\sum{\left ( y_i-\overline{y} \right )^2}}}であり、値が+1又は-1に近いほど、相関が高い、と解釈します。Contribution rateは、対角の図の単回帰直線(赤線)の寄与率 1-\frac{\sum {{\left ( y_{i}-{\widehat{y}}_{i} \right )}^{2}}}{\sum {{\left ( y_{i}-\overline{y} \right )}^{2}}} = 1 - (残差平方和) / (全変動平方和) であり、値が1に近いほど、モデルの当てはまりがよいことを意味します。決定係数 R^2 ともいわれます。線形単回帰の場合、寄与率=相関係数の二乗の関係があります。薄い灰色部は、真の単回帰直線の95%信頼区間です。

Multiple regression analysis with Linear multiple regression model

線形回帰分析の結果です。各パラメータの意味は以下の通りです。

Table. Results

Total sum of squaresは、全変動平方和 S_{yy}=\sum_{i=1}^{n} {{\left ( y_{i}-\overline{y} \right )}^{2}}、Residual sum of squaresは、残差平方和 S_e=\sum_{i=1}^{n} {{\left ( y_{i}-{\widehat{y}}_{i} \right )}^{2}}、Regression sum of squaresは、回帰変動平方和 S_R=\sum_{i=1}^{n} {{\left ( {\widehat{y}}_{i}-\overline{\widehat{y}} \right )}^{2}} です。\overline{\widehat{y}}=\overline{y} であり、S_{yy}=S_R+S_e の関係があります。

RMSE(Root Mean Squared Error)は、\sqrt{\frac{\sum{\left ( y_{i}-{\widehat{y}}_{i} \right )^2}}{n}}、MAE(Mean Absolute Error)は、\frac{\sum {\left| y_{i}-{\widehat{y}}_{i} \right|}}{n}、MAPE(Mean Absolute Percentage Error)は、100 \frac{\sum {\left|\left( y_{i}-{\widehat{y}}_{i} \right)/y_{i}\right|}}{n}です。値が小さいほどモデルの当てはまりがよいことを意味します。

R-squared(決定係数、寄与率)は、R^2=1-\frac{S_e}{S_{yy}}、Adjusted R-squared(自由度調整済決定係数)は、R^{*2}=1-\frac{S_e/\left ( n-k-1 \right )}{S_{yy}/\left ( n-1 \right )}であり、Adjusted R-squared 2(自由度二重調整済決定係数)は、R^{**2}=1-\frac{\left ( n+k+1 \right )S_e/\left ( n-k-1 \right )}{\left ( n+k \right )S_{yy}/\left ( n-1 \right )}です。1に近いほどモデルの当てはまりがよいことを意味します。自由度調整は、説明変数数kの増加に比例して重回帰モデルの当てはまりが良くなる傾向を補正します。

log(Likelihood)は、-\frac{n}{2} \: \mathrm{log}(2\pi \sigma ^2) - \frac{1}{2 \sigma ^2} {\sum {{\left ( {y}_{i}-\overline{y} \right )}^{2}}}であり、回帰式の誤差項が平均0、分散\sigma ^2の正規分布に従うとしたときの対数尤度です。\sigma ^2は、残差平方和を使用します。

AICは、赤池情報量基準 -2 \: \mathrm{log}{\left ( L \right )}+2{\left ( k+2 \right )}、杉浦のexact AICは、-2 \: \mathrm{log} \left ( L \right )+2 \left ( k+2 \right ) \frac{n-k-1}{n-k-3}であり、値が小さいほどモデルの当てはまりがよいことを意味します。AICは、線形回帰に限らず、一般の確率モデルに対してモデル選択基準として適用できますが、パラメトリックな分布に制限する必要があります。

p-value (F-statistic)は、帰無仮説を「母集団におけるモデル全体としての説明力が0」とするp値です。有意水準以下のとき、説明力は0ではない、と解釈します。

Table. Coefficients

p-valueが有意水準以下のとき、係数は0ではない、と解釈します。

Table. Values

y^ly^uは、予測値y^95%信頼区間であり、\widehat{y}_0\mp t\left ( \alpha ,{\phi}_e \right )\sqrt{\left ( 1+\frac{1}{n}+\frac{{D_0}^2}{n-1} \right )V_e}で算出されます。φeは、(データ数)-(説明変数数)-1D02は、マハラノビス汎距離です。区間幅は、RMSEの4倍に近い値になります。

esは、標準化残差(Standardized residuals)e_{\mathrm{s},i}=\frac{y_i-\widehat{y}_i}{\widehat{\sigma}}{\widehat{\sigma}}^2=\frac{\sum {{\left ( y_i-\widehat{y}_i \right )}^2}}{n-2}であり、値が-2~+2のときモデルの当てはまりがよいと判断できます。そうでないとき外れ値の可能性があります。

Lは、テコ比(Leverage ratio)であり、サンプルiのテコ比は、L_i=\frac{1}{n}+\frac{{D_i}^2}{n-1} で得ます。2.5×(k + 1)/n以内が基準値です。基準値外のとき、重回帰式の超平面がテコの影響を受け全体を引っ張るという悪影響を与えている可能性があります。表内のセルを強調表示します。

Welch Two Sample t-test

二群の母平均の一致性を検定するウェルチのt検定です。p値が有意水準以下のとき、母平均は異なる、と解釈します。二群の母分散が異なるときでも使用できますが、二群の分布が正規分布であるか、もしくはサンプルサイズが大きい必要があります。

Paired Two Sample t-test

データの対応のある二群の母平均の一致性を検定します。p値が有意水準以下のとき、母平均は異なる、と解釈します。二群の分布が正規分布であるか、もしくはサンプルサイズが大きい必要があります。

Bartlett test

多群の分散の一致性を検定するバートレット検定です。p値が有意水準以下のとき、分散が異なる群を含む、と解釈します。この検定では、分散が異なる群を特定することはできません。

One-way ANOVA

多群の平均値の一致性を検定する一元配置分散分析です。全群の等分散を仮定します。p値が有意水準以下のとき、平均値が異なる群を含む、と解釈します。この検定では、平均値が異なる群を特定することはできません。

Paired One-way ANOVA

データの対応のある多群の平均値の一致性を検定する一元配置分散分析です。全群の等分散を仮定します。p値が有意水準以下のとき、平均値が異なる群を含む、と解釈します。この検定では、平均値が異なる群を特定することはできません。

Brunner-Munzel test

二群の母分布の一致性を検定するブルンナー=ムンツェル検定です。ノンパラメトリック検定です。p値が有意水準以下のとき、母分布は異なる、と解釈します。