平均値と標準偏差
分析のオーソドックスな代表値として活用される平均値。月別売上平均、店舗別の平均来店客数、平均不良発生回数など、様々な活用がなされています。
しかし平均値の使い方には注意点が必要です。この注意点を抑えておかないとデータが示す意味を見誤り、データを元にした意思決定を誤る可能性が高まります。当記事では平均値と、平均値を補完しより有益な情報を引き出す標準偏差について解説します。
平均値とは
平均値とは「平らに均す」と書くように、総量を変えずに凸凹を均して全てを同じ値にそろえた数字です。アンケート調査結果の集計などでよく用いられます。
上図は、ある専門品を取扱う店舗の月別平均来店件数のデータです。このデータから何が判断できるでしょうか。
4月が最も来店客数が多い、4月をピークとして来店数は山なりを描いている、1月は最も来店数が少ない、などの情報を得ることができます。
ではこの情報からトータルの来店客数を増やすためにどのような方針を取ればよいでしょうか。仮説としては売上の少ない1月を底上げしたり、春の商戦をより強化する、といったことが考えられます。
なお、エクセルで平均値を算出するには関数「average」を用います。
標準偏差とは
標準偏差とは簡単に申し上げれば「バラツキの程度」を表します。バラツキとは、「平均値から各値までの乖離距離の平均」で表されます。これをより視覚的に分かりやすくしたグラフがヒストグラムです。下表をご覧ください。
これはあるサービス業の接客満足度を店舗別にヒストグラムにしたものです。縦軸が回答人数、横軸が評点(7段階)となっています。この両図を見比べてみますと、店舗A(上)と店舗B(下)では、グラフのカーブの描き方が異なることが分かります。
店舗Aは評点4を中心とし、グラフは左右に均等かつ鋭く尖った形を描いています。店舗Bも評点4(実際には少し上回っている)が中心ですが、グラフは左右にアンバランスかつなだらかに広がっています。
この2つの店舗は「平均点」という意味では約4点で同じですが、同じ4点でもA店舗では4点付近に評点が集中しているのに対し、B店舗では3点~6点まで広く分布しています。
つまりB店舗はA店舗に比べて、評点のバラツキが大きいということになります。
バラツキが大きいということは、その背景には「多様性」「不確実性」「リスク」が大きいという意味を持っています。
この事例で見ますとバラツキの大きいB店舗は、もしかすると接客人員のスキルの差が大きいのではないか(多様性)、という仮説が考えられます。また、アンケート回答顧客層によって評点が違う可能性がある(多様性)、ということも考えられます。
なお、エクセルで標準偏差を計算する際は関数「STDEV.S」を利用すれば良いでしょう。(標準偏差には標本標準偏差と普遍標準偏差の2種類があり、意味や関数にも違いがありますが、これはまた別の機会に説明します)
平均値と標準偏差の同時活用
平均点は代表値として活用しやすいですが、標準偏差と組み合わせてみることで、より実態を正しく把握することができ、精度の高い仮説と意思決定を行うことが可能となります。
下表は、「平均値」で紹介した月別平均来店客数に標準偏差を算出したものです。
この標準偏差から何が読み取れるのか、平均値とからめて考えてみます。
まず平均値から最も来店客数が多いのは4月ということが分かります。では4月の標準偏差を見てみると、6か月中最も小さな値(=バラツキが小さい)となっています。つまり4月は来店客数で最も多い月ですが毎年大きく増減することなく、安定的に来店客数を確保している月と言えます。
次に最も標準偏差の大きい3月を見てみますと、3月の平均来店客数は158人となっており、4月・5月に次いで3番目に来店数が多い月となっています。標準偏差が大きいということは、毎年来店人数に大きな差が出ているということになります。
これらの情報から、次のような仮説を導き出すことができそうです。
「3月は年度により大きく来店件数が増減しており、かつ平均来店件数も大きいため、3月の集客プロモーション成果が全体の集客件数に大きく影響しそうである。したがって3月に競合に先駆けて効果的な集客を行うことができれば、来店件数の底上げを図れそうである。」
このような仮説のもと、毎年のプロモーション施策とその実施タイミング、競合のプロモーション施策と実施タイミングを振り返り、3月に資源を投入して来店客数を持ち上げることが、全体の来店客数底上げに大きく貢献する可能性が高まります。
このように、データを見る際には2つ以上の軸からデータを見に行くことで、実態の正確な把握と質の高い仮説、意思決定に繋がります。
この記事へのコメントはありません。