今回は、一度きちんとまとめておきたかった「偏差値」についての話題です。
数学Ⅰで学ぶ内容です。
数Ⅰは、高校1年生で学びますが、私立中学では中3で学習するのが普通です。
しかし、大人にとっては、〇十年前の記憶を掘り起こさなくてはなりません。
そこで、記憶を掘り起こす手助けとして書いてみました。
(統計に詳しい方、数学を覚えている方にとっては釈迦に説法ですので読む必要はない内容です。また、もしかして私の理解が不十分で間違っているところもあるかもしれませんが、なにせ私も遠い記憶を掘り起こして書いていますので広い心でご容赦ください)
偏差値とは
「全体の中で自分の位置を示す目安」
この理解で普通は間に合います。平均点と同じ得点だと偏差値50です。例えば、テストで偏差値が55だったとすると、真ん中より少し上のあたりね、と見当がつきますので。
しかし、今回は正確に行きたいと思います。
偏差値=((点数ー平均点)/標準偏差 )×10 +50
これが計算式です。
偏差とは
偏差は簡単です。平均点と得点の開きになります。
偏差=点数ー平均点
これだけです。
例えば算数の得点が60点でした。平均点は50点です。
「お、平均点より10点も高かった!」
と喜びますね。
しかし、もしかしてこのテストは、受験生の約半数が100点で、約半数が0点だったかもしれません。そんな中での60点は、「0点でなかっただけで、半分近くの生徒に40点もの差をつけられてしまっている」だけなのかもしれませんね。
あるいは、ほぼ全員が50点をとっているのに、一人だけ60点という最高得点をとっているのかもしれません。
つまり、平均点との差である偏差だけ見ても、それが今回のテストの全体の中でどう評価されるべきなのかが見えてこないのです。
そこで、このテストの全体の成績の散らばり具合を見る何等かの目安が必要となりますね。
それが「分散」です。
分散とは?
全てのデータを調べ、「点数の散らばりの度合い」を示す数値です。
この「分散」の数値が大きいということは、平均点から離れている生徒が多いということを意味します。
分散=(偏差の二乗を全て足す)/全体の人数
よく考えれば、これは偏差の二乗の平均ということですね。
普通はここでΣ記号を使うのですが、今回はなるべく数学用語を排除して説明を試みます。
さきほど、偏差とは平均点との差だと定義しています。
しかし、偏差=得点-平均点
ということは、プラスの値もマイナスの値もとりますね。平均点より得点が高ければプラスに、低ければマイナスになります。
しかし、今知りたいのは、受験者全員の点のバラつき具合なのです。
そこで偏差の二乗を計算することで、マイナスの値が消えてくれて好都合なのです。
標準偏差とは?
しかし、分散を計算しようとして二乗したことで、問題も発生してしまいました。単位がなくなってしまったのです。
そこでルートの中に入れてみます。
こうすると、単位が復活してくれます。今の場合は単位は「点」ですね。
標準偏差=√分散
となります。
このあたりで、実際の計算例を出してみましょう。
20人分の国語のテストを100点満点で実施しました。
平均点は44.2点です。
分散は978.5、標準偏差は31.28点となりました。
ここまでくれば、偏差値も計算できます。
偏差値=(偏差/標準偏差) ×10 +50
※見やすくするため、小数第2位で四捨五入しています
共分散とは?
無事に偏差値も出ましたし、これで終了でもいいのですが、せっかくなのでもう少し続けてみます。
算数と国語の2科目のテストがあったとします。
そこで教師に、こうした疑問が浮かびました。
「国語ができる生徒は算数もできるのか?」
つまり、算数と国語の得点に関係があるのかどうかが知りたいのですね。
そこで登場するのが、「共分散」という数字です。
共分散は、算数の偏差と国語の偏差を掛け合わせ、その平均を出すことで計算できます。
共分散=(算数の偏差)×(国語の偏差)を全て足す /全体の人数
あれ、分散と計算方法が何か似てますね。
たしか分散のときには、国語の偏差の二乗で計算しました。
今度は算数と国語の二つの偏差を掛けているのですね。
ということは、もしかして算数と国語の得点が全て一致しているようなデータなら、この二つは同じになるはずです。
こちらも例を計算してみましょう。
さきほどの国語の得点に、算数の得点も同様に計算してみました。
これを見ると、国語の分散のほうが算数の分散よりも値が大きいことから、国語のほうが平均値より離れている値が多い、つまり散らばりの度合いが大きいことがわかります。
共分散を計算してみました。
共分散の値が大きいときは、正の相関関係、つまり国語の得点が高い時算数の得点も高いことになります。
また、共分散の値が小さいときは、負の相関会計、つまり国語の得点が高い時に算数の得点が低いことになります。
ちなみに、共分散がゼロのとき、国語と算数の得点に関係が見られないことになるのです。
さて、この例の共分散は511.7でした。
十分に大きい数字にも思えますが、ここで困った問題があります。
はたしてこの数字が十分に大きいといえるのかどうかの目安が不明なのです。
共分散には、この数字以上なら大きいですよ、という目安はありません。データの数字によって異なるからです。
そこで編み出されたのが、「相関係数」です。
相関係数とは?
最初に式を出します。
すでに計算済の数値ですので、すぐに出ますね。
計算すると、この例の相関係数は0.6となりました。
相関係数は-1から1の間の値をとります。
そして、この値が0.5~0.7だと、相関があるとみなせるのです。数値が大きいほど相関は強くなります。0.3未満だと無関係ということになるのです。
この例だと、0.6ですので、まずまず相関があるとみなせることがわかりました。
ここで散布図を作ってみました。
2科目に正の相関関係があるとき、赤の点線の中に要素が分布するはずです。
これを見ると、まあまあ正の相関関係があるとみなしてもよさそうです。そんなに強い相関関係ではありませんが。
偏差値の話から、少し広げて書いてしまいました。
これらは皆、数Ⅰで学ぶ範囲です。
私も〇十年ぶりに思い出しました。
このようにして順を追ってみてくると、偏差値は、そのテストの得点のバラつき具合に大きく左右されることがおわかりいただけたと思います。
「算数は偏差値57だったけど国語は偏差値54だった! 国語もっと頑張りなさい!」というのは簡単ですが、算数と国語の得点のバラつき具合が違うとあまり意味のない比較であることはわかると思います。
まして、そのテストを受けた母集団の人数が少ないと、ますますデータの精度が怪しくなるのです。
◆テストを受けた人数が十分に多い
◆良質のテストである
この二つがないと、偏差値の議論はしづらいのです。
ところで、「良質のテスト」というのは、平均点の生徒がもっとも多く、そこからいい具合に得点が散らばっているようなテストです。いわゆる正規分布となるテストですね。ところが、こうしたテストを作成するのがなかなか難しいのです。
偏差値にこだわりすぎてはいけない、ということなのですね。