基本統計量とは、データの基本的な特徴を表す値のことで、代表値と散布度に区分できる。代表値とは、データを代表するような値のことで、例えば、平均値、最大値、最小値などがある。散布度とは、データの散らばり度合いを表すような値のことで、例えば、分散、標準偏差などがある。

平均値 (mean)

平均値は、データの値をすべて足して、その個数で割った数値である。例えば、データの集合{1,2,3,4,5}ならば平均値3である。注意していただきたいのは、データの集合の中に極端に他の値と異なる値があった場合である。例えば、データ集合{1,2,3,4,5,100000}の平均値は果たしてデータを代表しているだろうか。平均値には、必ずこのような問題が付きまとうので、ヒストグラムなどでデータの分布を確認するのが望ましい。

Rで平均値を計算するソースコード


> x  mean(x)
[1] 5.843333

中央値 (median)

中央値は、データを昇順で並び替えたときの真ん中の値のことである。データの個数が奇数のときは、ちょうど真ん中の数値であり、データの個数が偶数のときは、真ん中の2つの数値の平均値である。

もう少し正確に記載すると、n個の数値データの集合を x1≦x2≦…≦xn と並び替えたとき、次の値が中央値となる。

  • nが偶数 (even) の場合:\frac{1}{2}(x_{\frac{1}{2}n} + x_{\frac{1}{2}n+1}})
  • nが奇数 (odd) の場合:x_{\frac{1}{2}(n+1)}

例えば、データの集合{1,2,3,4,5}ならば中央値3、データの集合{1,2,3,4}ならば中央値2.5となる。

Rで中央値を計算するソースコード


> x  median(x)
[1] 5.8

最頻値 (mode)

最頻値とは、データの集合の中で、最も頻繁に現れる値のことである。例えば、データの集合{1,2,2,3,4,5}ならば最頻値2となる。

ただし、一般に数値データの集合の場合、同じ数値が頻繁に現れることは少ない。このときは、数値データの度数分布表を作成し、最も度数が高い階級の階級値を最頻値とする。度数分布表の階級の取り方により、最頻値が変わってしまうことに注意しておきたい。

Rで最頻値を計算するソースコード


> x  names(which.max(table(x)))
[1] "5"

最大値 (maximum)

最大値とは、データの集合の中で、最も大きい値のことである。例えば、データの集合{1,2,3,4,5}ならば最大値5となる。

Rで最大値を計算するソースコード


> x  max(x)
[1] 7.9

最小値 (minimum)

最小値とは、データの集合の中で、最も小さい値のことである。例えば、データの集合{1,2,3,4,5}ならば最小値1となる。

Rで最小値を計算するソースコード


> x  min(x)
[1] 4.3

分散 (variance)

平均値からの散らばり具合を表す数値を分散といい、次式で定義する。ただし、\overline{x}は平均値とする。

    \[\sigma^2 = \frac{1}{n}\sum^{n}_{i=1}(x_{i}-\overline{x})^2\]

標準偏差 (standard deviation)

標準偏差とは、分散の正の平方根の値のことである。

なぜわざわざ分散の正の平方根を標準偏差と改めて名前をつけているのかについて、簡単に説明する。

例えば、花びらのがく片の長さの集団を考える。

このとき、分散の式を見ると、2乗した値となっていることから、分散の単位は「長さ×長さ」となっている。標準偏差は、この分散の平方根を取ることにより、単位を「長さ」に戻しているとみることができる。

平均値などは単位が変わらないのに、分散を考えると単位が変わってしまうのでは扱い難い。そこで、同じ単位の枠内で扱えるように分散を変更したのが標準偏差であるといえる。
basic_statistics_variance

歪度 (わいど, skewness)

歪度とは、分布の非対称性を表す値のことである。

  • 歪度<0:左に裾が長い(右に偏った)分布
  • 歪度=0:正規分布と同じ
  • 歪度>0:右に裾が長い(左に偏った)分布

basic_statistics_skewness

Rで歪度を計算するソースコード


> x  mean((x-mean(x))^3)/(sd(x)^3)
[1] 0.3086407

尖度 (せんど, kurtosis)

尖度とは、分布の尖り度合いを表す値のことである。

  • 尖度<3:なだらかな分布
  • 尖度=0:正規分布のときは尖度は3
  • 尖度>3:尖っている分布

Rで尖度を計算するソースコード


> x  mean((x-mean(x))^4)/(sd(x)^4)
[1] 2.394187

関連する記事

  • 相関係数相関係数 相関係数とは2変量のデータ間の関係性の強弱を計る統計学的指標である。相関係数rがとる値の範囲は-1≦r≦1である。相関係数rの値により以下のように呼ばれる。 -1≦r<0ならば負の相関 r=0ならば無相関 0<r≦1ならば正の相関 一般的に、強弱も合わせて以下のように呼ばれる。 […]
  • R言語 CRAN Task View:臨床試験デザイン、監視、および分析R言語 CRAN Task View:臨床試験デザイン、監視、および分析 CRAN Task View:Clinical Trial Design, Monitoring, and Analysisの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: W.G. Zhang, R.G. Zhang, Ed […]
  • 経営戦略に使えるRFM分析の基礎知識と活用法経営戦略に使えるRFM分析の基礎知識と活用法 RFM分析とは、ある一定期間の購買履歴データを用いて、顧客を分類することにより様々な示唆を得るための分析手法である。分類の仕方は、顧客を直近購買時期・購入頻度・購買額の3つの軸で分類し、各軸ごとにランク分けをする。このことにより、顧客が現在どの位置にいて、それがどのくらいの人数なのかを把握することができる。 あなたは、このような分類をすることにどのようなメリットがあるの […]
  • Python KNPを用いて係り受け構造を抽出する方法Python KNPを用いて係り受け構造を抽出する方法 Ubuntu14.04環境で、Python3と日本語構文・格・照応解析システムKNPを用いて係る語と受ける語のペアを抽出する方法をご紹介する。 係り受け構造を抽出するPython3のソースコードは次である。 from pyknp import KNP def […]
  • R実装と解説 対応のない2標本の母平均の差の検定(母分散が異なる) [latexpage] 母分散が異なるの場合の対応のない2標本の母平均の差の検定とは、2つの母集団が正規分布に従い、ともに母分散が異なるとき、一方の母平均が他方の母平均と「異なる」または「大きい」、「小さい」かどうかを、検定統計量がt分布に従うことを利用して検定します。 統計的検定の流れ 検定の大まかな流れを確認しておきます。 […]
基本統計量