ナレッジ

開封率が1%上がった、は本当に成果なのか|カイ二乗検定でメール施策の効果を正しく判断する

「やっているのに成果が出ない」状態から抜け出すために

施策を続けているのに商談が増えない、リードの質が上がらない。 こうした課題の多くは、戦略と施策のつながりが設計されていないことが原因です。 Sells upは現状の分析と改善の優先順位整理から支援します。

目次

「先月より1%改善しました」は正しい報告か

MAを運用していると、こんな会話が日常的に起きます。

よくある場面

「今月の開封率は29%でした。先月の28%から1ポイント改善しています」
「件名をAとBで変えてテストしたところ、Bの方が2%高い結果でした」
「セグメント変更後、クリック率が3.2%から3.8%に上がりました」

これらの報告に対して「良かった」「改善した」と判断していないでしょうか。実は、この差が「施策の効果によるもの」なのか「偶然のブレによるもの」なのかは、数字を見るだけでは判断できません。

この記事では、メール施策の効果を統計的に判断するための「カイ二乗検定」の考え方と、ExcelやGoogleスプレッドシートで実際に計算する手順を整理します。統計の知識がなくても手順通りに進めれば使えるように説明しますので、安心して読み進めてください。

なぜ「差があるように見える」のに、意味がないことがあるのか

サンプルサイズと偶然のブレ

コインを10回投げて7回表が出た場合、「このコインは表が出やすい」と言えるでしょうか。直感的には「まあ偶然の範囲かな」と感じるはずです。では1,000回投げて700回表が出たら? これは明らかに「おかしい」と感じます。

メールの開封率も同じです。配信数が少ない場合、数%の差は単なる偶然のブレである可能性が高くなります。逆に配信数が多い場合、小さな差でも「偶然ではない差」として検出できます。

状況

判断

100件配信:開封28件(28%) vs 31件(31%)

差は3%に見えるが、配信数が少ないため偶然の範囲内である可能性が高い

10,000件配信:開封2,800件(28%) vs 3,100件(31%)

同じ3%の差でも、配信数が多いため偶然ではない差として判断できる可能性が高い

この「偶然の範囲を超えているかどうか」を数値で判定するのが、統計的仮説検定です。カイ二乗検定はその中でも、開封した/しないという2択のデータを比較するのに適した手法です。

カイ二乗検定とは何か

一言で言うと

「2つのグループの間にある差が、偶然起きる範囲を超えているかどうかを判定する方法」です。

メールのA/Bテストや、施策前後の比較に使う場面では、「件名Aと件名Bで開封率に差があるのは偶然か、それとも本当に件名の違いによるものか」を判定します。

p値の読み方

カイ二乗検定を実行すると「p値」という数値が出ます。これは「この差が偶然起きる確率」です。

p

判断の目安

p < 0.05

「偶然ではなさそう」→ 統計的に有意な差があります。施策の効果と判断してよい

p ≥ 0.05

「偶然の範囲内かもしれない」→ 有意な差とは言えありません。結論を出すには判断材料が不足している

0.05という基準は「5%水準」と呼ばれる慣例的な閾値です。「100回同じ状況が起きたとき、5回以下しか偶然この差が生まれない」という意味合いになります。絶対的なルールではありませんが、実務上はこの基準を使うのが一般的です。

MAのメール効果測定での使いどころ

カイ二乗検定が使えるのは「2つのグループで、2択の結果を比較する」場面です。MAの運用においては以下の3つの場面が典型例です。

使いどころ

比較するグループ

比較する結果

件名A/Bテスト

件名Aを受け取ったグループ vs 件名Bを受け取ったグループ

開封した vs 開封しなかった

セグメント別の効果比較

セグメントAのリード vs セグメントBのリード

クリックした vs クリックしなかった

施策前後の比較

施策変更前の配信 vs 変更後の配信

MQLに移行した vs しなかった

いずれも「2グループ×2択」の構造になっています。これがカイ二乗検定の前提条件です。3つ以上のグループを同時に比較する場合は、2グループずつ分けて検定します。

カイ二乗検定のやり方——ステップで解説

件名A/Bテストを例に、実際の計算手順を追います。以下のデータを使います。

例題:件名A/Bテストの結果

件名A:配信1,200件、開封336件(開封率28%)
件名B:配信1,200件、開封384件(開封率32%) 

この4%の差は「偶然の範囲」か、それとも「件名の違いによる本物の差」か?

Step 1

クロス集計表(観測度数)を作る

実際のデータを「開封した/しなかった」×「件名A/B」の表に整理します。「観測度数」とは、実際に観測されたデータの数のことです。

 

開封した

開封しなかった

合計

件名A

336

864

1,200

件名B

384

816

1,200

合計

720

1,680

2,400

Step 2

期待度数を計算する

「もし件名AとBに差がなければ、どんな数値になるはずか」を計算します。これが「期待度数」です。  期待度数の計算式:(その行の合計 × その列の合計)÷ 全体の合計

各セルの期待度数を計算します。

件名A・開封した:1,200 × 720 ÷ 2,400 = 360

件名A・開封しなかった:1,200 × 1,680 ÷ 2,400 = 840

件名B・開封した:1,200 × 720 ÷ 2,400 = 360

件名B・開封しなかった:1,200 × 1,680 ÷ 2,400 = 840

 

開封した(期待)

開封しなかった(期待)

合計

件名A

360

840

1,200

件名B

360

840

1,200

合計

720

1,680

2,400

この表は「もし件名に差がなければ、件名AもBも同じ開封率(30%)になるはず」という仮定のもとで計算した値です。

Step 3

カイ二乗値を計算する

観測度数と期待度数のズレを数値化します。ズレが大きいほど、カイ二乗値が大きくなります。  各セルの計算式:(観測度数 − 期待度数)² ÷ 期待度数  それを全セル分足し合わせたものがカイ二乗値です。

各セルを計算します。

件名A・開封した:(336 − 360)² ÷ 360 = 576 ÷ 360 = 1.600

件名A・開封しなかった:(864 − 840)² ÷ 840 = 576 ÷ 840 = 0.686

件名B・開封した:(384 − 360)² ÷ 360 = 576 ÷ 360 = 1.600

件名B・開封しなかった:(816 − 840)² ÷ 840 = 576 ÷ 840 = 0.686

カイ二乗値 = 1.600 + 0.686 + 1.600 + 0.686 = 4.571

Step 4

ExcelまたはGoogleスプレッドシートでp値を出す

カイ二乗値からp値を計算します。手計算は不要です。以下の関数を使います。

ツール

関数

Excel

=CHISQ.DIST.RT(カイ二乗値, 自由度) → =CHISQ.DIST.RT(4.571, 1)

Googleスプレッドシート

=CHISQ.DIST(カイ二乗値, 自由度, TRUE) で左側確率が出るため → =1-CHISQ.DIST(4.571, 1, TRUE)

自由度とは

カイ二乗検定における自由度は「(行数 − 1)×(列数 − 1)」で計算します。 今回の例:(2 − 1)×(2 − 1)= 1  2×2のクロス集計表では、自由度は常に1になります。

Step 5

p値を読んで判断する

今回の例では、p値 = 0.0325 が得られます。  p値 0.0325 < 0.05 → 統計的に有意な差がある  「件名AとBの開封率の差4%は、偶然の範囲を超えており、件名の違いによる本物の差と判断できます」

Excel・Googleスプレッドシートを使えば、Step.3までのカイ二乗値の計算も関数で代替できます。CHITEST関数(Excel)またはCHISQ.TEST関数(Googleスプレッドシート)に観測度数と期待度数の範囲を指定するだけで、直接p値が得られます。

関数でまとめて計算する方法

Excel:=CHITEST(観測度数の範囲, 期待度数の範囲) Googleスプレッドシート:=CHISQ.TEST(観測度数の範囲, 期待度数の範囲)  例:観測度数がA2:B3、期待度数がD2:E3 に入力されている場合 =CHITEST(A2:B3, D2:E3)  これだけでp値が直接出力されます。

有意差が出ても、気をつけること

「統計的有意」と「実務的に意味がある」は別の話

配信数を増やすと、小さな差でも統計的に有意になります。たとえば50,000件配信で開封率が28%と28.5%だった場合、カイ二乗検定では有意差が出ることがあります。ただし0.5%の差がビジネス上の意思決定を変えるかどうかは別問題です。

有意差が出たとき、「統計的に偶然ではない差がある」とは言えますが、「この差は対応を変えるべき重要な差か」は文脈に応じて判断してください

開封率の差よりも、その先の指標が重要

開封率に有意差が出ても、クリック率や商談化率に差がなければ、件名の変更が最終的な成果に貢献しているとは言えません。カイ二乗検定はあくまで「ある指標における差の有無」を判定するものです。ナーチャリングの目的に照らして、どの指標の差を検定するかを最初に決めておくことが重要です。

サンプルサイズが少ない場合は注意が必要

カイ二乗検定は、各セルの期待度数が5以上あることが前提です。配信数が少なく期待度数が5を下回るセルがある場合は、フィッシャーの直接確率検定など別の手法を使う方が適切です。「期待度数が5以上」という条件が満たされているかを、Step.2の計算後に確認してください。

実務での使い方:どのタイミングで検定するか

カイ二乗検定は、すべての数値変化に対して毎回実施するものではありません。以下の3つの場面で使う「判断ツール」として位置づけると実務に組み込みやすくなります。

使う場面

具体的な使い方

A/Bテストの結果報告

「件名・CTAを変えてテストした結果、有意差があったか」を数値で示す。「Bの方が良かった」ではなく「p値0.03で有意差あり」と報告できる

施策変更後の効果検証

セグメント変更・送信タイミング変更などの施策後に「変更前後で差があるか」を確認する。月次レポートの根拠として使える

社内・経営への説明

「開封率が上がりました」ではなく「統計的に有意な改善が確認できました」という説明が可能になります。数字の信頼性を示せる

A/Bテストを実施する場合、検定結果が有意になるために必要なサンプルサイズを事前に計算(検出力分析)しておくことが理想です。ただしまず「検定を使う習慣」を持つことが先決なので、最初はStep.1〜5の手順を月次の振り返りに組み込むところから始めてみてください。

▼カイ二乗検定のテンプレートシートはこちら(クリックするとすぐにExcelファイルがダウンロードされます)

https://www.sellsup.co.jp/chisq_test.xlsx

まとめ

「先月より1%改善した」「件名Bの方が2%高かった」という報告が日常的に行われていますが、その差が本当に施策の効果によるものかどうかは、数字を見るだけでは判断できません。

カイ二乗検定を使うことで、「この差は偶然の範囲を超えているか」を数値で確認できます。Excelのシンプルな関数で計算でき、統計の専門知識がなくても手順通りに進めれば実務で使えます。

MAの運用において「数字が動いた」ことを報告するだけでなく、「その動きが意味のある変化かどうか」を判断できるようになることが、施策の精度を上げる第一歩になります。

今日からできること

  • 直近のA/Bテスト結果または施策前後のデータをクロス集計表にまとめてみる
  • ExcelまたはGoogleスプレッドシートでCHITEST関数を使ってp値を計算してみる
  • p値が0.05を下回っているかどうかで、差の有意性を確認する習慣をつける
  • 今後のA/Bテスト設計に「有意差を検出するために必要な配信数」という観点を加える

「やっているのに成果が出ない」状態から抜け出すために

施策を続けているのに商談が増えない、リードの質が上がらない。 こうした課題の多くは、戦略と施策のつながりが設計されていないことが原因です。 Sells upは現状の分析と改善の優先順位整理から支援します。

株式会社Sells up 代表取締役
武田 大
株式会社AOKIにて接客業を、株式会社リクルートライフスタイル(現:株式会社リクルート)にて法人営業を経験した後、株式会社ライトアップでBtoBマーケティングを担当。その後、デジタルマーケティングエージェンシーにてBtoBマーケティングの戦略設計/施策実行支援、インサイドセールスをはじめとしたセールスやカスタマーサクセスとの連携を通じたマーケティング施策への転換といった支援を行い、2023年に株式会社Sells upを設立。ICP・ペルソナ策定から始まるBtoBマーケティングプロセスの全体設計、リードジェネレーション・ナーチャリング・クオリフィケーション・営業連携SLA構築・LTV最大化まで一気通貫での仕組み化支援を提供し、業界/企業規模を問わずこれまでに約80社以上の支援実績を持つ。Salesforce Certified Marketing Cloud Account Engagement SpecialistおよびTableau Desktop SpecialistのSalesforce認定資格を保有。