Easy statisticsEasy statistics

Easy statisticsはすぐに使えるデータの可視化・分析ツールです。データの箱ひげ図散布図ヒストグラム主要な統計量、散布図行列(SPLOM)、回帰分析結果、およびt検定などの各種検定結果をまとめて表示します。縦方向・横方向、適当にデータを入力しても、それなりに解釈して結果を表示します。Easy statisticsに関するその他の情報は、Graviness blogも参考にしてください。

箱ひげ図

箱ひげ図です。最小値、中央値、最大値などのデータの拡がりを視覚的に確認、比較できます。

色が塗られた長方形の箱の床側の値を第1四分位数\( Q_1 \)といい、データを小さい順に並べて四等分で仕切ったときに、1番目の仕切りに位置する値です。反対の箱の天井側の値を第3四分位数\( Q_3 \)といい、3番目の仕切りに位置する値です。それぞれ下側25パーセント点、上側25パーセント点ともいわれます。箱の高さ\( Q_3 - Q_1 \)を四分位範囲(IQR)といい、中央付近のデータのばらつきの度合いを表す値となります。箱の中に実線で示される値を中央値(median)といい、同じくデータを小さい順に並べたときの真ん中の値となります。

●で表示される値は、外れ値の候補であり、\( 第3四分位数 + 1.5 \times \mathrm{IQR} \)より大きい値、又は、\( 第1四分位数 - 1.5 \times \mathrm{IQR} \)より小さい値です。

横方向の点線は、平均値であり、菱形の点線の長さは、標準偏差を示します。

散布図

散布図です。上昇下降傾向、周期性、散らばり具合など具体的な値の傾向や分布を視覚的に確認できます。

縦軸をデータの値、横軸を最初のデータを1とするデータの番号としています。データ間の相関を確認する場合は、散布図行列を参照してください。

母平均の95%信頼区間を薄い色の帯で表現しています。信頼区間の具体的な値については、統計量を参照してください。

ヒストグラム

ヒストグラムです。ある一定のデータ区間内にデータが含まれる個数(度数)を縦軸に示しており、データの分布(形状)を視覚的に確認できます。

データの散らばり具合、データ数の多い(少ない)区間、山の数、尖り具合、裾の長さなどの歪み具合、外れ値などを視覚的に確認します。

分布が正規分布に近い場合、データに多くの統計手法を適用できるため解析が容易になります。裾が長く歪んでいる分布の場合、対数関数を適用すると正規分布に近い形状になることがあります。山が複数ある多峰性の分布の場合、平日と土日のデータが混在しているなど、データに複数の異なる要因が含まれている可能性があります。離れ小島のような区間がある場合、外れ値の可能性があります。

統計量

各群の主要な統計量です。各群の特徴を一つの値で要約します。

平均(mean)は、\(\mu = \frac{1}{n} \sum_{i=1}^{n}x_{i} = \bar{x} = E\left [ X \right ]\)であり、データを算術平均した値です。

分散(variance)は、\( {\sigma}^2=\frac{1}{n} \sum_{i=1}^{n}\left ( x_{i}-\mu \right ) =E\left [ X^2 \right ]-{E\left [ X \right ]}^2 \)、標準偏差(standard deviation)は、\( \sigma \)、変動係数(coefficient of variation)は、\( C.V.=\frac{\sigma}{\mu} \)であり、それぞれデータのばらつきの度合いを表す値です。値が小さいほど、ばらつきの度合いは小さいと解釈します。変動係数は、同形状の分布に従うデータのばらつきを比較したいときに有用です。

歪度(skewness)は、\( \frac{E\left [ {\left ( X-\mu \right )}^3 \right ]}{\sigma ^3} \)であり、分布の左右対称性の度合いを表す値です。右に偏った分布は負値、左右対称の分布は0、左に偏った分布は正値になる傾向があります。尖度(kurtosis)は、\( \frac{E\left [ {\left ( X-\mu \right )}^4 \right ]}{\sigma ^4}-3 \)であり、正規分布を基準とした分布の尖りの度合いを表す値です。一様分布のように平坦な分布は負値、正規分布と同程度の尖り方では0、正規分布よりも上に尖った分布では正値になる傾向があります。

幾何平均(geometric mean)は、\( {\left ( \prod_{i=1}^{n} x_i \right )}^{\frac{1}{n}} \)であり、利率や増加率などの変化率に対する代表値として使用されます。調和平均(harmonic mean)は、\( \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}} \)であり、速度や流量に対する代表値として使用されます。調和平均≦幾何平均≦算術平均の不等式が成立します。

最頻値(mode)は、最も頻繁に登場する値です。同位の最頻値がある場合、値が小さい方を表示します。

中央値(median)は、データを小さい順に並べたときに中央に位置する値です。外れ値の影響を受け難く、年収などの裾の長い歪んだ分布では、算術平均値よりも適切な代表値であることが多いです。

第1四分位数(\( Q_1 \))は、データを小さい順に並べて四等分で仕切ったときに、1番目の仕切りに位置する値です。第3四分位数(\( Q_3 \))は、3番目の仕切りに位置する値です。それぞれ下側25パーセント点、上側25パーセント点ともいわれます。四分位範囲(IQR)は、\( Q_3 - Q_1 \)であり、中央付近のデータのばらつきの度合いを表す値です。範囲(range)は、\( 最大値 - 最小値 \)です。

不偏分散(unbiased variance)は、\( \hat{\sigma}^2=\frac{\sum_{n}^{i=1}\left ( x_{i}-\bar{x} \right )}{n-1} \)であり、「入力したデータは母集団から取得した一部の標本である」と考えたときの母集団(真)の分散の推定量です。ほとんどのケースにおいて、分散よりも不偏分散を用いる方が適切です。

標準誤差(standard error)は、\( S.E.=\frac{\sigma}{\sqrt{n}} \)であり、平均値(mean)の誤差を表す値です。例えば、データの個数が十分に大きいとき、真の平均値が\( \bar{x} \pm 2 S.E. \)の範囲にある確率が約95%となります。式から分かる通り、データの個数を4倍にすると誤差は2分の1になります。

[0.025 mean(variance) 0.975]は、母平均(母分散)の95%信頼区間です。

シャピロ・ウィルク検定のp値は、p値が有意水準より小さい値のとき、母分布は正規分布に従うとはいえない、と解釈します。

散布図行列(SPLOM

散布図行列(SPLOM)です。Correlationは、相関係数 \( \frac{\sum{\left ( x_i-\overline{x} \right )\left ( y_i-\overline{y} \right )}}{\sqrt{\sum{\left ( x_i-\overline{x} \right )^2}} \sqrt{\sum{\left ( y_i-\overline{y} \right )^2}}} \)であり、値が+1又は-1に近いほど、相関が高い、と解釈します。

Contribution rateは、対角の図の単回帰直線(赤線)の寄与率 \( 1-\frac{\sum {{\left ( y_{i}-{\widehat{y}}_{i} \right )}^{2}}}{\sum {{\left ( y_{i}-\overline{y} \right )}^{2}}} = 1 - \frac{残差平方和}{全変動平方和} \)であり、値が1に近いほど、モデルの当てはまりがよいことを意味します。決定係数 \( R^2\)ともいわれます。線形単回帰の場合、寄与率=相関係数の二乗の関係があります。

薄い灰色部は、真の単回帰直線の95%信頼区間です。

線形回帰分析

線形回帰分析の結果です。実測値\( y \)と線形回帰式からの予測値\( \hat{y} \)の関係を示すグラフを表示します。実測値と予測値を視覚的に確認できます。その他の表のパラメータの意味は以下の通りです。

Table. Results

Total sum of squaresは、全変動平方和\( S_{yy}=\sum_{i=1}^{n} {{\left ( y_{i}-\overline{y} \right )}^{2}} \)、Residual sum of squaresは、残差平方和\( S_e=\sum_{i=1}^{n} {{\left ( y_{i}-{\widehat{y}}_{i} \right )}^{2}} \)、Regression sum of squaresは、回帰変動平方和\( S_R=\sum_{i=1}^{n} {{\left ( {\widehat{y}}_{i}-\overline{\widehat{y}} \right )}^{2}} \) です。\( \overline{\widehat{y}}=\overline{y} \) であり、\( S_{yy}=S_R+S_e \) の関係があります。

RMSE(Root Mean Squared Error)は、\( \sqrt{\frac{\sum{\left ( y_{i}-{\widehat{y}}_{i} \right )^2}}{n}} \)、MAE(Mean Absolute Error)は、\( \frac{\sum {\left| y_{i}-{\widehat{y}}_{i} \right|}}{n} \)、MAPE(Mean Absolute Percentage Error)は、\( 100 \frac{\sum {\left|\left( y_{i}-{\widehat{y}}_{i} \right)/y_{i}\right|}}{n} \)です。値が小さいほどモデルの当てはまりがよいことを意味します。

R-squared(決定係数、寄与率)は、\( R^2=1-\frac{S_e}{S_{yy}} \)、Adjusted R-squared(自由度調整済決定係数)は、\( R^{*2}=1-\frac{S_e/\left ( n-k-1 \right )}{S_{yy}/\left ( n-1 \right )} \)であり、Adjusted R-squared 2(自由度二重調整済決定係数)は、\( R^{**2}=1-\frac{\left ( n+k+1 \right )S_e/\left ( n-k-1 \right )}{\left ( n+k \right )S_{yy}/\left ( n-1 \right )} \)です。1に近いほどモデルの当てはまりがよいことを意味します。自由度調整は、説明変数数\( k \)の増加に比例して重回帰モデルの当てはまりが良くなる傾向を補正します。

\( \mathrm{log}\left ( Likelihood \right ) \)は、\( -\frac{n}{2} \: \mathrm{log}(2\pi \sigma ^2) - \frac{1}{2 \sigma ^2} {\sum {{\left ( {y}_{i}-\overline{y} \right )}^{2}}} \)であり、回帰式の誤差項が平均0、分散\( \sigma ^2 \)の正規分布に従うとしたときの最大対数尤度です。-2倍した値は、赤池情報量とも呼ばれます。\( \sigma ^2 \)は、残差平方和を使用します。

AICは、赤池情報量基準\( -2\:\mathrm{log}\left ( Likelihood \right )+2\left ( k+2 \right ) \)、杉浦のexact AICは、\( -2 \: \mathrm{log} \left ( Likelihood \right )+2 \left ( k+2 \right ) \frac{n-k-1}{n-k-3} \)、BICは、シュバルツのベイズ情報量基準\( -2 \: \mathrm{log} \left ( Likelihood \right )+ \left ( k+2 \right ) \mathrm{log}n \)であり、値が小さいほどモデルの当てはまりがよいことを意味します。変数選択の基準に使用します。AIC・BICは、線形回帰に限らず、一般の確率モデルに対してモデル選択基準として適用できますが、パラメトリックな分布に制限する必要があります。

p-value (F-statistic)は、帰無仮説を「母集団におけるモデル全体としての説明力が0」とするp値です。有意水準以下のとき、説明力は0ではない、と解釈します。

Table. Coefficients

線形回帰式の係数の妥当性に関する詳細な情報です。

S.E.は標準誤差、t、p-valueはt検定のt値とp値です。p値が有意水準以下のとき、係数は0ではない、と解釈します。[0.025 0.975]は、係数の95%信頼区間です。

Table. All values

予測した回帰式に全ての説明変数の値を適用した結果で表示します。

\( \hat{y_l} \)、\( \hat{y_u} \)は、予測値\( \hat{y} \)の95%信頼区間であり、\( \widehat{y}_0\mp t\left ( \alpha ,{\phi}_e \right )\sqrt{\left ( 1+\frac{1}{n}+\frac{{D_0}^2}{n-1} \right )V_e} \)で算出されます。\( {\phi}_e \)は、\( (データ数)-(説明変数数)-1 \)、\( {D_0}^2 \)は、マハラノビス汎距離です。区間幅は、RMSEの4倍に近い値になります。

\( e_s \)は、標準化残差(Standardized residuals)\( e_{\mathrm{s},i}=\frac{y_i-\widehat{y}_i}{\widehat{\sigma}} \)、\( {\widehat{\sigma}}^2=\frac{\sum {{\left ( y_i-\widehat{y}_i \right )}^2}}{n-2} \)であり、値が\( -2.0 \sim +2.0 \)のときモデルの当てはまりがよいと判断できます。そうでないとき外れ値の可能性があります(セルを赤色で強調表示します)。

\( L \)は、テコ比(Leverage ratio)であり、サンプル\( i \)のテコ比は、\( L_i=\frac{1}{n}+\frac{{D_i}^2}{n-1} \) で得ます。\(2.5 \times \left ( k + 1 \right ) \div n \)以内が基準値です。基準値外のとき、重回帰式の超平面がテコの影響を受け全体を引っ張るという悪影響を与えている可能性があります(セルを赤色で強調表示します)。

Table. All variables combination

説明変数の組み合わせを総当り(べき集合)で回帰式を予測し、評価した結果を表示します。当てはまりの良い上位を緑色、悪い下位を赤色で表示します。

R-squared(決定係数、寄与率)は、\( R^2=1-\frac{S_e}{S_{yy}} \)、Adjusted R-squared 2(自由度二重調整済決定係数)は、\( R^{**2}=1-\frac{\left ( n+k+1 \right )S_e/\left ( n-k-1 \right )}{\left ( n+k \right )S_{yy}/\left ( n-1 \right )} \)です。1に近いほどモデルの当てはまりがよいことを意味します。自由度調整は、説明変数数\( k \)の増加に比例して重回帰モデルの当てはまりが良くなる傾向を補正します。

RMSE(Root Mean Squared Error)は、\( \sqrt{\frac{\sum{\left ( y_{i}-{\widehat{y}}_{i} \right )^2}}{n}} \)です。値が小さいほどモデルの当てはまりがよいことを意味します。

ウェルチのt検定

二群の母平均の一致性を検定するウェルチのt検定です。p値が有意水準以下のとき、母平均は異なる、と解釈します。

二群の母分散が異なるときでも使用できますが、二群の分布が正規分布であるか、もしくはサンプルサイズが大きい必要があります。

データの対応のあるt検定

データの対応のある二群の母平均の一致性を検定します。p値が有意水準以下のとき、母平均は異なる、と解釈します。

二群の分布が正規分布であるか、もしくはサンプルサイズが大きい必要があります。

バートレット検定

多群の分散の一致性を検定するバートレット検定です。p値が有意水準以下のとき、分散が異なる群を含む、と解釈します。帰無仮説が正しいとき、chi_squareは自由度dofの\( {\chi}^2 \)分布に従います。

一元配置分散分析(ANOVA

多群の平均値の一致性を検定する一元配置分散分析です。全群の等分散を仮定します。p値が有意水準以下のとき、平均値が異なる群を含む、と解釈します。この検定では、分散が異なる群を特定することはできません。

BSS-dofは要因に関する自由度、WSS-dofは残差に関する自由度であり、F_0は一元配置分散分析における検定統計量です。帰無仮説が正しいとき、F_0は自由度(BSS-dof, WSS-dof)のF分布に従います。

データの対応のある一元配置分散分析

データの対応のある多群の平均値の一致性を検定する一元配置分散分析です。全群の等分散を仮定します。p値が有意水準以下のとき、平均値が異なる群を含む、と解釈します。この検定では、分散が異なる群を特定することはできません。

BSS-dof・USS-dof・WSS-dofはそれぞれ要因・個体・残差に関する自由度であり、F_0は一元配置分散分析における検定統計量です。帰無仮説が正しいとき、F_0は自由度(BSS-dof, WSS-dof)のF分布に従います。

ブルンナー=ムンツェル検定

二群の母分布の一致性を検定するブルンナー=ムンツェル検定です。両群から一つずつ値を取り出したとき、どちらが大きい確率pも等しいことを帰無仮説とします。ノンパラメトリック検定です。p値(p-value)が有意水準以下のとき、母分布は異なる、と解釈します。