未分類

Google Optimizeのテスト期間とサンプル数について

1. はじめに

Google Optimizeの検定方法から、必要サンプル数、テスト期間についてまとめます。※自分用のメモ

2. 引用Google資料

1)Google Optimizeのレポートの概要
2)Google :ベイズ推定

3. Google Optimize レポートの各部説明

3-1. 概要ヘッダー

レポートの上部にある概要ヘッダーには、テストのメインの目標に関連する情報(ステータス、セッション、推奨事項など)が表示されます。下記の例のように、テストのステータス(実行中)、テスト セッションの数、推奨事項(テストを続けてください)、開始時刻と終了時刻が表示されます。

Google Optimizeの概要ヘッダー

3-2. ステータスメッセージ

データを待っています
これは、エラー メッセージではありません。データ収集と処理のタイミングはサービスによって異なるため(Google AnalyticsとGoogle Optimize)、データが収集されてからオプティマイズで処理されるまでには若干のタイムラグが生じます。
オプティマイズで最初の分析結果を確認できるようになるまでには、1~2 日ほどかかります。表の [アクティブなユーザー数] 列では、テストが正常にユーザーに表示されていることを確認できます。この列には、[開始] ボタンのクリック直後から、テストページを訪れたアクティブなユーザーの数がリアルタイムで表示されます。

テスト セッションがありません
テスト セッションが受信されていない場合に表示されます。これは、エラーが発生していることを示しています。テスト自体の設定や、タグの実装状況の確認を行い解決が必要となります。以下の4つの点で調査をします。

– Google Optimizeタグの実装状況の診断
– Google OptimizeとGoogle Analyticsのプロパティーの連携
– Google Optimizeのページのターゲティングルールの確認(テスト対象のページ指定ルールが間違っている)
– Google Optimizeのオーディエンスターゲティングルールの確認(該当のユーザがいない)

テスト セッションが不十分です
テスト セッションは発生していますが、すべてのパターンを分析できるだけの十分なデータが集まっていない場合に表示されます。オプティマイズでは、1 日あたり 1 つのパターンに対して少なくとも 1 つのテスト セッションが必要です。一部のページにターゲティングの問題があるか、比重の設定により各パターンに十分なトラフィックが割り当てられていないことが考えられます。たとえば、あるパターンに 100% のトラフィックが割り当てられ、オリジナルに分配されるトラフィックが 0% になっている場合があります。この場合は、パターンの比重を調整して、問題を解決してください。

1 つのパターンにすべてのトラフィックを送信したい場合は、パターンではなく、カスタマイズを作成してください。

テストを続けてください
このメッセージは、次の 2 つの場合に表示されます。

1. Google Optimizeでは、少なくとも 2 週間分のデータが収集されるまで、テスト結果の報告は行われません。ウェブ トラフィックの変動周期が 1 週間であることを考慮して、トラフィック量が多いサイトでも、2 週間以上テストを実施する必要があります。
2. 現在収集されているデータは、精度の高いテスト結果を提供するには不十分であるため、さらに多くのデータを集める必要があります。テストが現在実行中であれば、そのまま続行することをおすすめします。少なくとも 1 つのパターンで「オリジナルを上回る確率(PBO)」が 95% に達するまでテストを続けてください。
このステータスメッセージが表示されているが、どうしても次のテストを行いたい場合、曜日変動の影響を受けないように1週間単位で、検証担当ディレクターがテストの終了を判断することがあります。ベイズ検定は最小必要サンプル数がありませんが、ベースを95%上回る結果がない場合に、2週間以上経過していてもこのメッセージが表示続けます。2週間たって、目標値に有意な差があると判定した場合はテストの停止を検討しましょう。

リーダーが見つかりませんでした
データが十分に収集され、リーダーは存在しない(パターンもオリジナルもリーダーではない)との結論が導き出されると、このメッセージが表示されます。これは、パターンをデプロイまたは実装しても、その成果はオリジナルとほとんど変わりないことを意味しています。これ以上続行しても結果が変わる可能性は低いため、このテストはここで中止して、新しいテストを行うことをおすすめします。

少なくとも 1 つのパターンがオリジナルよりも優れています
オリジナルを上回るパターンが 1 つ以上見つかっているものの、最善のパターンを特定するにはデータが不足している場合に表示されます。この場合は、(1)最善である確率が最も高いパターンをデプロイするか、(2)テストを続行して、最も優れたパターンが見つかるまで待つことができます。
むやみに、サンプル数を増やすことは推奨しないため、明らかに(1)を選定できる状態でなければ、結果の優劣は参考程度に活用しましょう。

オリジナルがリーダーです
オリジナルより優れたパターンが見つからなかった場合に表示されます。この場合は、パターンを採用せず、オリジナルをそのまま使用する方がよいでしょう。これ以上続行しても結果が変わる可能性は低いため、このテストはここで中止して、新しいテストを行うことをおすすめします。

1 つ以上のリーダーが見つかりました
データが十分に収集され、1 つ以上のパターンがオリジナルよりも優れているとの結論が導き出されると、このメッセージが表示されます。収集されたデータを基に、最善のパターンも特定されます。この場合は、「最善である確率(PBB)」が最も高いパターン、または現在のオリジナルよりも優れていると判断された他のいずれかのパターンをデプロイできます。これ以上続行しても結果が変わる可能性は低いため、このテストはここで中止することをおすすめします。

「Aパターン」がリーダーです
データが十分に収集され、1 つのパターンのみがオリジナルより優れているとの結論が導き出されると、このメッセージが表示されます。この場合は、リーダーのパターンをサイトにデプロイまたは実装してください。これ以上続行しても結果が変わる可能性は低いため、このテストはここで中止することをおすすめします。

4. 有意差検定:ベイズ推定

Google Optimizeのテスト結果では統計的有意性を判断する手法としてベイズ推定が使用されており、行動の変化と蓄積データに応じて結果が判定されますため、サンプルサイズの最小要件はございません。

  • ベイズ推定はデータが蓄積されるにつれ分析の精度が向上するという性質を備えています。計算が複雑で高い処理能力が求められるという面もありますが、ベイズ推定には従来のアプローチと比べて、次のような 4 つのメリットがあります。

    1. 確率を直接計算することができるため、「新しいパターンがオリジナルより優れた成果を上げる確率はどのくらいか」などの問いに対して、より適切な回答を示すことができます。

    2. 誤って確率と混同されることの多い p 値の使用を避け、すぐに活用できる有用なデータをユーザーに提供できます。

    3. 仮説検定のアプローチに伴うさまざまな問題を回避しつつ、あるパターンが総合的に最善である確率を示すことができます。

    4. それ以上テストを続行しても有用なデータが得られないと判明した時点で、テストを終了できます。

  • ベイズ推定およびオプティマイズで使用される統計手法について詳しくは、一般的な方法論をご覧ください。

5. テスト期間について

テストの実施期間については、少なくとも次のいずれかの条件が成立するまで続けることが推奨されております。

– 2週間が経過する(ウェブトラフィックの変動周期が1週間であることを考慮)

– 1つ以上のパターンについて、ベースラインを上回る確率が95%に達する

  • トラフィックが少ない場合でも、コンバージョン率が一定であれば(コンバージョン率の推移に一貫性があれば)有効なテスト結果が得られるとされております。そのため、テスト開始より1週間経過(曜日の影響を考慮)した後、ベースラインを上回る確率が95%に達していれば、2週間以内でもオプティマイズでのテスト結果は得られたとして停止していただけます。

6. 同じURLで同時に複数テストをする

1ページに対して同時に複数テストが配信された場合、以下のようにパターン配信失敗や計測精度の懸念があるため、避けていただく

6-1. 複数テストの懸念点

  • 同じ要素やコンテンツに対するパターン変更が、一部しか反映されない(例:処理のタイミングが後になった変更のみ反映される等)

  • パターン変更が衝突し、意図したパターン変更が適用されない

  • テストの相互の影響が生じる可能性があり、個別のテスト結果が正確に計測できない

6-2. それでも同じURLで複数テストを実施する方法

上記をご考慮いただいた上で、以下のように複数テストを実施する方法は検討いただけます。

  • 同一ユーザーに複数テストが当たらないようにターゲティング条件を分ける

    • 例1:デバイスPC、SPで適用されるテストを分ける

    • 例2:ユーザーID末尾数字が偶数か奇数かにより適用されるテストを分ける

  • ページ内の複数要素の組み合わせをテストされる場合は、多変量テスト(MVT)もご検討できます

*Appendix

GA4とGoogle Optimizeの連携

GA4とGoogle Optimizeの連携方法について説明しています。プロパティのリンクや、目標の設定など管理画面の設定内容と。GAとGA4の違いなどを説明

ランディングページのURLパラメータをリンク先に引き継ぐJavaScript

特定のサービスのリード獲得のためのラインディングページ。広告を出稿することもあります。その際に、Web2Appの遷移や、別ドメインに立てたランディングページの場合、広告のトラッキングコードがコンバージョンまで引き継げないケースがある。ランディングページの特定のURLパラメータを引き継ぐJavaScript

ABテスト設計ガイド

ABテストを行う際に事前に確認して言語化しておくべき内容を設計書としてまとめました。実験を成功に導くため見切り発車しないように設計書を事前に準備しましょう。

GA4/ABテストツールの選定

2023年9月30日をもって、Google Optimizeはサービス終了します。GA4と連携するABテストツールとして、候補に挙がるサービスをどのように選定していくかがとても重要

参考図書1: A/Bテストの教科書、カバ本です。お勧めです。

A/Bテスト実践ガイド

参考図書2: 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

効果検証入門

コメント

タイトルとURLをコピーしました