Topic 14
正規性の確認:ヒストグラム+密度曲線+QQプロット
Normality check with histogram, normal curve, and Q-Q plot
分布が概ね正規とみなせるかを確認するページです。図を優先しつつ、Shapiro-Wilk 検定を補助的に使う考え方を整理します。
このページでは、score の分布をヒストグラムと QQ プロットで確認し、必要に応じて Shapiro-Wilk 検定も使う流れを扱います。サンプルでは W = 0.951, p = 0.109 で、大きな逸脱は読み取りにくい例です。
このページのゴール
- ヒストグラムと QQ プロットから、分布の歪みや外れ方を読み取れるようになる
- Shapiro-Wilk 検定を『補助的なチェック』として位置づけられるようになる
- どの場面で raw data の正規性、どの場面で残差の正規性を見るのかを区別できるようになる
- 正規性の確認結果を、本文や方法欄に簡潔に書けるようになる
Start here
まず押さえる4つのポイント
1. 正規性は「図で見る」が基本
正規性の確認では、まずヒストグラムや QQ プロットを見て、強い歪みや重い裾がないかを確認します。
2. 検定は補助役
Shapiro-Wilk 検定は便利ですが、サンプルサイズに敏感です。小標本では見逃しやすく、大標本では少しのずれでも有意になりやすい点に注意します。
3. 何の正規性を見るかを区別する
t 検定では raw data ではなく差分や残差が重要になることがあります。手法ごとに、どの量を確認すべきかを意識します。
4. 完璧な正規分布でなくてもよい
実務では「大きな逸脱がないか」を見ることが多く、少しのずれだけで機械的に手法を捨てる必要はありません。
Basics
分析の概要と前提条件
何を確認しているのか
正規性の確認では、データが鐘形に近いか、QQ プロット上で点が概ね直線に沿うかを見ます。これは「この先に使いたい手法が大きく崩れないか」を判断する材料になります。
必要なデータ形式:1行が1観測の数値変数です。手法によっては raw data ではなく差分や残差を確認します。
図で見たいこと
- 左右対称かどうか
- 裾が長すぎないか
- 一部の極端な値が全体を崩していないか
検定で見たいこと
- Shapiro-Wilk の W と p 値
- 有意/非有意だけでなく図と整合するか
- サンプルサイズとの兼ね合い
QQ プロットの見方
QQ プロットでは、正規分布なら理論分位点と標本分位点がほぼ一直線に並びます。端の方で大きく反る場合は、裾の重さや歪みを疑います。
- ヒストグラムは全体の形を見やすい
- QQ プロットは裾のずれに気づきやすい
- 検定は図の代わりではなく補助です
Checklist
正規性を見るときの順番
1. まずヒストグラム
全体として左右対称か、片側の裾が長いかをざっと確認します。最初の見取り図として便利です。
2. 次に QQ プロット
中央付近は沿っているか、端で大きく外れていないかを見ます。裾のずれは QQ プロットの方が分かりやすいことがあります。
3. 補助的に Shapiro-Wilk
p 値だけで結論を出すのではなく、図の印象と合わせて読みます。非有意でも図が大きく崩れていれば注意します。
4. 何の変数かを意識する
回帰なら残差、対応あり t 検定なら差分、独立2群の t 検定なら各群の分布を見る、というように対象を間違えないことが大切です。
Data structure
データの形をつかむ
サンプルは 36 件の score データです。平均は 70.89、SD は 9.08 で、Shapiro-Wilk 検定では W = 0.951, p = 0.109 でした。
サンプルデータの先頭
| id | score |
|---|---|
| 1 | 74.7 |
| 2 | 68.4 |
| 3 | 67.7 |
| 4 | 74.4 |
| 5 | 80.6 |
| 6 | 75.2 |
| 7 | 69.5 |
| 8 | 59.4 |
| 9 | 65.4 |
| 10 | 66.5 |
正規性チェックの要約
| 指標 | 値 |
|---|---|
| n | 36 |
| Mean ± SD | 70.89 ± 9.08 |
| Median (Q1–Q3) | 71.4 (66.4–76.6) |
| Shapiro-Wilk W | 0.951 |
| Shapiro-Wilk p | 0.109 |
この例では p = 0.109 で、Shapiro-Wilk 検定だけを見ると強い非正規性は示されていません。図の形と合わせて読むのがポイントです。
R code
Rコードを順番に実行する
library(tidyverse)
dat <- read.csv("sample-data/sample_normality_scores.csv")
head(dat)
summary(dat$score)
# ヒストグラムと Q-Q プロットを描く前に、Shapiro-Wilk 検定を補助的に確認
shapiro.test(dat$score)
# base R のQ-Qプロット
qqnorm(dat$score)
qqline(dat$score)
library(ggplot2)
ggplot(dat, aes(x = score)) +
geom_histogram(aes(y = after_stat(density)), bins = 8, color = "white") +
stat_function(
fun = dnorm,
args = list(mean = mean(dat$score), sd = sd(dat$score)),
linewidth = 1.1
) +
labs(
x = "Score",
y = "Density",
title = "Histogram with normal curve"
) +
theme_minimal(base_size = 13)
# QQ プロット(base R)
qqnorm(dat$score)
qqline(dat$score)
Output
出力のどこを読めばよいか
正規性チェックでは、ヒストグラムの形、QQ プロットの直線性、Shapiro-Wilk の W と p 値をセットで読みます。
中心と広がり
頑健な要約量
p = 0.109
観測数
この出力をどう解釈するか
今回のサンプルでは、Shapiro-Wilk 検定は W = 0.951, p = 0.109 でした。p 値だけを見ると、強い非正規性を示す結果ではありません。
ただし、ここで重要なのは図と合わせて読むことです。ヒストグラムと QQ プロットから大きな崩れが見えなければ、「概ね正規分布に近い」と表現できます。一方、検定が非有意でも図が大きく歪んでいれば、その点を優先して注意書きを入れます。
Figure reading
ヒストグラムと QQ プロットをどう読むか
図1 ヒストグラムと QQ プロットによる正規性の確認
Figure 1. Normality assessment using a histogram and Q-Q plot.
ヒストグラムの左右対称性
中央付近が山になり、左右に極端な偏りがなければ、まずは大きな問題は少ないと考えやすくなります。
正規曲線との重なり
棒の形が重ねた正規曲線と大きくずれていないかを見ると、平均と SD で近似してよいかの目安になります。
QQ プロットの端
中央だけでなく端の点が大きく反っていないかを確認します。裾の重さは QQ プロットで見つけやすいポイントです。
図と検定の整合性
図と検定の結論が大きく食い違うときは、標本サイズや外れ値の影響を考えます。図を主役、検定を補助と考えると整理しやすくなります。
Report writing
レポートや論文での書き方
Japanese
結果記述例(日本語)
score の分布について、ヒストグラムおよび QQ プロットを用いて正規性を確認したところ、大きな逸脱は認められなかった(図1)。Shapiro-Wilk 検定でも有意な逸脱は示されなかった(W = 0.951, p = 0.109)。
English
Report writing example
Normality of score was assessed using a histogram and a Q-Q plot, and no major deviation from normality was observed (Figure 1). The Shapiro-Wilk test also did not indicate a significant deviation (W = 0.951, p = 0.109).
Caption
図表キャプション例
図1 ヒストグラムと QQ プロットによる正規性の確認
Figure 1. Normality assessment using a histogram and Q-Q plot.
Common mistakes
よくあるミス
p 値だけで決めてしまう
Shapiro-Wilk の p 値だけで「正規」「非正規」を機械的に決めると、図の情報を捨ててしまいます。
見るべき対象を間違える
対応あり t 検定なら差分、回帰なら残差が重要になることがあります。raw data だけ見て終わらせないようにします。
少しのずれで過剰反応する
実データが完全な正規分布になることは多くありません。大きな逸脱かどうか、目的の手法にどの程度影響するかで考えます。
FAQ
初心者がひっかかりやすい質問
Q. Shapiro-Wilk が有意なら必ずノンパラメトリック法ですか?
A. そこまで単純ではありません。標本サイズ、外れ値、図の形、分析目的もあわせて判断します。
Q. ヒストグラムだけでは不十分ですか?
A. ヒストグラムは全体像を見るのに向いていますが、裾のずれは QQ プロットの方が見つけやすいことがあります。
Q. 正規性の確認はいつ書くべきですか?
A. 方法欄で「ヒストグラムと QQ プロット、必要に応じて Shapiro-Wilk 検定で確認した」と書くか、結果欄で簡潔に触れる形が使いやすいです。
Q. サンプルサイズが大きいときはどう考えますか?
A. 少しのずれでも検定が有意になりやすいので、図による判断の比重を高めます。
代替手法
代替手法・次のステップ
研究課題やデータ構造が少し変わると、選ぶべき手法も変わります。このテーマを土台にしつつ、どの条件で別の方法へ進むかを押さえておくと、分析計画が立てやすくなります。
変換を試す
強い右歪みがあるときは、対数変換などで分布を整えることがあります。
ノンパラメトリック法
分布のずれが大きく、平均ベースの手法が不安なときは順位ベースの方法も候補になります。
ロバストな要約量
平均より中央値、SD より IQR を使う方が実態に合う場合もあります。記述統計のページと行き来しながら考えます。
参考資料
参考資料
このページの内容を深掘りしたいときに役立つ、公式ドキュメントと一次資料をまとめています。まずは関数の仕様、その次に補助的な可視化や読み方の資料を見ると理解しやすくなります。
運営と利用上の注意
このページの位置づけ
本サイトのトピックページは、Rによるデータ分析の学習支援とレポート作成の補助を目的としたオリジナル解説です。サンプルデータとコードは再現練習用に作成しているため、実データを扱う際には研究計画・前提条件・欠測・外れ値・尺度水準をあらためて確認してください。
編集方針
ページ本文は、標準的な統計手法、Rの公式ドキュメント、一次資料に近い参考文献を優先して整理しています。更新や訂正の方針は編集方針ページで公開しています。