ナビゲーションにスキップ メインコンテンツにスキップ

インクリメンタリティ測定の基礎:Intent-to-treat、PSA、Ghost Bids

« ある指標が目標になると、それはもはや良い指標ではなくなる。 »

グッドハートの法則(Goodhart's Law)

経済学者のチャールズ・グッドハートは、格言の中で核心を突きました。この法則の一般的な応用例として、2人の作業員が釘を作るよう依頼されたとします。一人は作った釘の本数で、もう一人は作った釘の重さで評価される場合、結果はどうなったでしょうか?一人目の作業員は1000本の釘を作りましたが、二人目の作業員は重い釘を数本作っただけでした。彼らのパフォーマンスに対するインセンティブは、その目標に直接結びついているからです。

モバイルマーケティングでも同様の現象が見られます。業界全体でパフォーマンスKPIへの注目が高まるにつれ、新しいアトリビューションモデルが登場していますが、それに伴いフラウド、カニバリゼーション、ラストクリックの奪取といった問題も顕在化しています。グッドハートの法則が示すように、「誤った指標」は「誤ったインセンティブ」につながり、最終的に広告主たちはこう問い始めます。「自分の広告費が、実際にどれだけの増分収益を生んでいるのか?」

この問いに答えるには、広告費と収益の因果関係を正しく把握する必要があります。よく使われるアトリビューションモデルは手軽ですが、「相関関係」はあっても「因果関係」を証明するものではありません。いわば「相関は因果を意味しない(Cum hoc ergo propter hoc)」という問題です。

医学分野の手法を広告に応用する

ここで登場するのがランダム化比較試験(RCT:Randomized Controlled Trial)です。RCTはさまざまな科学分野で広く用いられており、特に臨床試験においては、新薬や医療機器、治療法などが被験者にどのような影響を与えるか(好影響・悪影響・影響なし)を検証するために活用されています。

« ランダム化比較試験は、因果関係を証明するための“ゴールドスタンダード”と広く見なされています。理想的に設計されたRCTでは、処置が結果を“引き起こした”といえる状況が実現されます。 »

ナンシー・カートライト (Nancy Cartwright)

リターゲティングでは、投薬の代わりに広告を試す

RCTでは、被験者をランダムに2つのグループに分け、一方には新しい治療(テストグループ)を施し、もう一方(コントロールグループ)には何も施しません。そして、テストグループに見られた変化を「治療の効果」として捉えます。この因果関係を科学的に証明するRCTの考え方は、モバイルリターゲティングにおいても応用可能です。ここで言う「治療」は「広告」であり、対象ユーザーをテストグループとコントロールグループに分け、テストグループには広告を配信、コントロールグループには配信しません。広告接触によるユーザー行動の変化を観察することで、モバイルマーケティングの効果をバイアスなく計測することが可能になります。

このようなインクリメンタリティ測定には複数の手法が存在しますが、それぞれ「コントロールグループに何をするか」「結果をどう解釈するか」によって異なります。

インクリメンタリティ測定における代表的手法

Intent-to-Treat(ITT)

コスト不要・実装が容易だがノイズが多い

まずは「Intent-to-Treat(ITT)」手法から始めましょう。すべてのケースにおいて、ITTではコントロールグループのユーザーには広告を一切配信しません。このアプローチは「ホールドアウトテスト」とも呼ばれ、インクリメンタリティ(増分効果)を以下の2通りの方法で計測します。

1. 完全比較(Complete comparison): この方法では、テストグループ内の全ユーザー(広告が表示されたユーザーと表示されなかったユーザーの両方)と、コントロールグループ全体のユーザーの行動を比較します。

これは、ITT手法を正しく適用する方法であり、以下の問いに答えることができます:「自分の広告をターゲティングされたユーザーは、されていないユーザーに比べてどれだけ多く支出しているか?」

この方法は理論的に正しいものの、ノイズの多さという課題を生じさせます(ノイズについては後述)。

2. 部分比較(Partial comparison、いわゆるナイーブな手法):こちらの方法では、広告が実際に表示されたユーザーのみを抽出し、その行動をコントロールグループのユーザーと比較します。

このアプローチは、テストグループ内の非表示ユーザーによるノイズを抑えようという意図で使われがちですが、実際には広告配信面(supply)、入札機会、インプレッションレンダリングの可用性といった要因により、セレクションバイアスが生じやすく、誤った結論につながります。

ITT手法がインクリメンタリティ測定で広く採用されているのは、クライアントサイド(BIチームやデータサイエンス部門など)で簡単に実装できるためです。広告配信パートナーの配信システム側と連携する必要はありません。

ただし、実際には、テストグループに含まれるユーザーのうちごく一部しか広告に接触しないという状況も珍しくありません。これは、ターゲットユーザーの広告在庫がサプライサイドで限られていたり、プログラマティックオークションでの勝率が低かったりする場合に発生します。その結果、テストグループ内に大量の非表示ユーザーが含まれてしまい、計測がノイズだらけになるのです。

データにおける「ノイズ」とは?

ノイズ(意味のない情報)は、テストグループ内に含まれる広告非接触ユーザーによって生じます。ノイズが多くなると、統計的な有意差や増分効果が見られない失敗テストに終わることがしばしばあります。これは、非接触ユーザーの行動が変動することで、少数の接触ユーザーによってもたらされたわずかな効果がかき消されてしまうためです。

「ノイズ」の問題を視覚的に捉える
以下のイメージを思い浮かべてください:

どちらのほうが、水面の変化を目視で確認しやすいでしょうか?答えは簡単。バケツです。変化を測るのが目的であるなら、バケツの方がインパクトを観測しやすいのです。インクリメンタリティ測定において、バケツが「少数の非接触ユーザー」、プールが「多数の非接触ユーザー」を表します。非接触ユーザーが多ければ多いほど、広告の影響を検出するのが難しくなってしまうのです。

プラシーボ広告(PSA広告)

ノイズゼロだが、コスト高かつ持続不可能な選択肢

「PSA/プラシーボ広告」手法では、コントロールグループにも実際の広告を配信します。具体的には、赤十字のバナー広告や飲酒運転防止広告など、社会的な啓発を目的としたPublic Service Announcement(PSA)広告を配信します。

このように実際の広告を配信することで、「コントロールグループ内で広告配信対象となり得たユーザー」が特定可能になります。これにより、非接触ユーザーを測定対象から除外でき、ノイズを完全に排除できます。

セルフサーブプラットフォームではPSA広告の実装が容易であり、Intent-to-Treat方式で発生するノイズ問題への優れた対処法となります。実際、PSAを用いたアップリフトテストではノイズが一切発生しません。しかしながら、この手法にはコストがかかりすぎるという大きな課題があります。コントロールグループへの広告配信にもインプレッション単位で広告費が必要となるため、マーケターの利益率を圧迫することになります。さらに、インクリメンタリティ測定は一度きりではなく、継続的な運用が理想であることから、PSA広告に予算を割き続けることは、長期的な戦略として現実的ではありません。

加えて、PSA広告は実装方法を誤ると、かえって不正確な結果を導く可能性があります。たとえば、スマートな配信最適化が行われるプラットフォーム上で2種類の異なるキャンペーンを同時に走らせた場合、システムはそれぞれの広告内容に応じて配信ターゲットを最適化してしまいます。

  • 「(配信システムは)クリックする可能性が最も高いタイプのユーザーに広告を配信します。スポーツ用品やアパレルの広告をクリックするユーザーと、慈善団体の広告をクリックするユーザーは、おそらくまったく異なるタイプです。つまり、これは“リンゴとオレンジ”を比較しているようなものです。結果として、PSAテストでは過剰に楽観的、あるいは過剰に悲観的な誤った結果が出ることがあります。」 - Think with Google

また、PSA手法ではコントロールグループとテストグループが同等であるという前提が置かれますが、これは現実には成立しません。たとえば、同じユーザーであっても、「飲酒運転防止広告」と「次のレベルで新キャラクターを手に入れよう!と訴求するゲーム広告」とでは、反応の強さがまったく異なる可能性があります。このように、グループの定義自体が歪められてしまうため、正確な比較は不可能になります。

Ghost Ads

ITTとPSAの“いいとこ取り”だが、ユーザー獲得により適した手法

いくつかの業界文献でも取り上げられているように、Ghost Adsのコンセプトは、インクリメンタリティ測定において最も多くの利点を提供する手法の一つです。そのメリットには、ノイズの少なさ、選択バイアスの最小化、そして広告主に追加コストが発生しないという点が含まれます(これは、PSA手法と大きく異なるポイントです)。

Ghost Adsは、PSAの考え方をベースにしつつ、広告主の負担コストを取り除いた改良版といえます。具体的には、コントロールグループのユーザーには別の広告主による広告が配信されるため、自社のクリックやインプレッションに関わるコストは発生しません。その後、コントロールグループのユーザー行動には「ゴーストインプレッション」が記録され、「本来であれば広告接触していたはずのユーザー」が誰であったかを特定することができます。

Ghost Adsは非常に正確かつ精緻な計測手法ですが、リターゲティングにはあまり向いていません。この手法では、対象ユーザーに対して自社以外にも関心を持つ広告主(=第2の関心主体)が存在することが前提となるためです。ユーザー獲得(User Acquisition)領域であれば、1人のユーザーに複数の広告主が関心を持つことは一般的なので、この要件は容易に満たされます。しかし、リターゲティングでは通常、過去に特定のアプリやサービスと関わりのあるユーザーなど、非常に絞られたセグメントが対象となるため、関心を持つ広告主が1社しか存在しないケースが多く、Ghost Adsは適用しにくいのです。

GHOST BIDS(ゴースト入札)

アプリリターゲティングに特化した、より精緻かつコスト不要なインクリメンタリティ測定手法

Ghost Adsと同様に、Ghost Bidsの目的も、ノイズおよび非接触ユーザーをできる限り排除することです。Remergeでは、Ghost Adsのコンセプトをベースにしながら、継続的な増分効果のトラッキングを目的とした独自ソリューションを構築しています。ただし、リターゲティング用途に最適化するためにいくつかの実装上の改良を加えており、そのため本手法を「Ghost Bids(ゴースト入札)」と呼んでいます。

まず、RTB(リアルタイム入札)上で検出されなかったすべてのユーザーを、テストグループ・コントロールグループ問わず除外します。これにより、計測におけるノイズは大幅に削減されます。

増分を計測するために、私たちは「リーチ可能なユーザー」、すなわちターゲットセグメントに属し、RTBアドエクスチェンジ上で検出され、入札が可能なユーザーに対して、収益とコンバージョンをトラッキングします。テストグループには通常通り入札を行い、コントロールグループには実際の入札は行いませんが、「Ghost Bid(理論上は入札が可能だったことを示す)」としてマークを残します。一方で、ターゲットセグメントに属していてもアドエクスチェンジ上で検出されなかったユーザーは、テストの対象外となります。

このように、RTB上に存在しないユーザーが計測を乱すことがなくなるため、ITT手法と比べてノイズが大幅に低減されます。なぜなら、広告に接触する可能性のなかったユーザーの行動は、そもそも本キャンペーンとは無関係だからです。

つまり、テストグループ内には2種類のユーザーが存在することになります。1つは少なくとも1回インプレッションを見た接触ユーザー、もう1つは我々がそのユーザーに対して入札に勝てなかった、あるいはインプレッションがレンダリングされなかったために接触しなかった非接触ユーザーです。

同様に、コントロールグループにも「本来であれば広告に接触していた可能性のあるユーザー」と「そうでないユーザー」が存在します。非接触ユーザーが一定割合含まれることで計測には追加のノイズが生じますが、どのコントロールグループのユーザーが本来広告に接触していたかを正確に予測する方法はなく、その推定は計測に選択バイアスを持ち込む可能性があるため、簡単には行えません。

まとめ:インクリメンタリティ測定とは

  • インクリメンタリティ測定の概念を理解することは、ROIをより科学的に把握するための第一歩です。さらに、それぞれの手法とその長所・短所を理解することで、より的確な判断が可能になります。
  • 適切なインクリメンタリティ測定のツールや手法を用いることは、広告主と広告パートナーの双方にとって正しいインセンティブ設計につながります。戦略としてのインクリメンタリティは、長期的にはモバイルリターゲティングを、より透明性が高く計測可能で、フラウドの少ないチャネルへと進化させるものになるでしょう。

インクリメンタリティ測定に関するさらに詳しい情報については、別のブログ記事でいくつかの科学論文を紹介しています。