在上一篇的「用 A/B Testing 提升你的網頁轉換率!」中,我們已經知道 A/B Test 執行前的基本觀念建立以及具體的操作流程,暸解整個測試的骨架。接續這篇要做的則是「填肉」,說明 A/B Test 具備哪些元素、這些元素的意義、如何設計這些元素以及要如何去解讀?讓我們在做 A/B Test 時規劃與執行都更加完備。
一個完整的 A/B Test 一定會至少包含「被測者」、「指標」、「測量」、「假設」這四個元素,當你少考慮其中一個,或是沒有把它安排在你的 A/B Test 中,顯而易見的這個測試有很高的機率會在規劃階段就出錯,使得數據結果與資料分析都不具備參考價值。
為了避免發生上述提及的錯誤,在我們實際開始執行實驗前,必須審慎規劃被測者、指標、測量、假設這四個元素,讓整個測試能發揮它原有的功效——驗證假設是否被測驗支持或是反駁——是我們這篇要討論的核心。
被測者:了解你的使用者永遠是測試中最重要的事
在執行 A/B Test 的過程中,我們最想做的事其實就是「找到答案」,那麼「問題是什麼?」、「我們要解決的是誰的問題?」就極其重要,透過定義正確的使用者,我們可以找到他們真正的問題以及需要被滿足的需求,還有正確的詮釋 A/B Test 的結果。
為了更理解該如何解決使用者的問題,我們可以把使用者們用「世代」或是「細分」的方式來分別定義,這個架構方便我們清楚區別要參與測試的使用者到底是哪些人,在測試完成後知道結果適用於哪些群體,而非過度推論相同結果在不同群體身上。
世代與細分的定義方式
分類方式 |
世代 |
細分 |
定義 |
因各種因素而有相同體驗的使用者們 |
基於人口要素、興趣或行為做分類 |
例子 |
1. 版本因素:同樣都在 v1 版本註冊的用戶。 2. 時間因素:暑假時才玩線上遊戲的小朋友。 3. 世代因素:數位原生代 vs 數位移民。(1980 年前或後出生。) |
1. 人口:居住在台北市的 25 歲男性。
2. 興趣:平日搜尋山區資訊、假日必定前往郊區爬山。 3. 行為:Python 入門新手、Python 中階學習者、Python 專家。 |
掌握以上兩個定義方法後,你也能試著回答這些問題,進一步思考使用者輪廓:
- 使用者使用哪些裝置?
- 在什麼情境下會接觸到你?(包含空間、時間,無論是接觸到廣告或產品)
- 他們期待從你這裡獲得什麼價值?
- 你有哪些已經可用的資訊?(例如過去註冊時所握有的名單)
除了上述的定義與問題外,有一個我們也很常使用的定義方式也必須考慮到,那就是「新使用者」與「既有使用者」。
以行銷人最熟悉的廣告為例,受眾一定會對新使用者與既有使用者做基本區隔,對他們溝通的文案跟素材也會完全不同。既有使用者因為已經對我們的產品或服務十分熟悉,所以在向他們溝通一個新活動時,只需要說明活動內容即可。
新使用者則不同,在溝通活動內容之前,還需要向他們說明我們是誰?為什麼我們要辦這個活動?等更多根據使用者旅程來制定的文案內容。由於新使用者與既有使用者對產品或服務的認知起點完全不同,因此當這兩類人混在一起參與 A/B Test 時,一定會導致結果的誤差與不精確,需要特別注意。
指標:正確量化 A/B Test 中,「改變」對於結果造成的影響
A/B Test 可以用在很多地方,但當我們想要有效利用資源時,最好能將與商業目標與 A/B Test 測試目標相關聯,使得在每一次 A/B Test 結束後,都能有將商業目標下一個推向成長的方向。而與商業模式密切相關的數字,我們稱為「關鍵指標」,更精準來說,哪些指標能顯著指出你的企業正在成長?
為了讓你更理解關鍵指標與商業模式之間的意義,下面舉幾個例子來說明:
商業模式 |
電商平台 |
線上學習 |
SaaS 服務 |
關鍵指標 |
完成交易的金額 |
學員評價 |
客戶流失率 |
關係說明 | 只要完成交易的金額愈高,就代表公司營收愈高。 例如阿里巴巴宣布在 2019 年的天貓雙 11,他們單日營業額就突破 2684 億人民幣。 |
當學員評價愈高,則代表該堂課程愈符合學生需要,以此指標來判斷平台是否能持續做出市場需要的課程。
例如 Hahow 在 2019 年底的文章中提到,基於內容品質而出現的學員評價是他們關注的重要指標。 |
SaaS 服務的定價相對穩定加上定期扣款的特性,使得減少流失比率成了重要課題,有非常多的 SaaS 服務都將減少流失率作為重要指標。 |
如果仔細觀察這些案例,你可能會發現在某些情況下關鍵指標並沒有那麼好測量,像是線上學習,使用者必須得看到課程、買完課程、上完課程、留下評價後,企業端才能收到「學員評價」的資料。在 SaaS 服務的例子裡甚至是使用者已經走人了,你才會收到相關數據。
在這裡我想帶入一個觀念,分別是「領先指標」與「落後指標」,很多與企業商業模式相關的指標,都是落後指標,它落在使用者旅程的最後一段,導致數據收集費時、量體不足,讓 A/B Test 的結果量測更顯困難。
為了解決這個問題,我們通常會使用代理指標來取代關鍵指標,又稱領先指標,它量測的是使用者行為,且能影響關鍵指標的表現。以線上學習平台為例,學生必須在上完課程後才能留下評價,因此課程參與度就會是其中一個可參考的代理指標。
想找出適合自己企業的指標,可以先思考以下 3 個問題:
- 你的企業類型?
- 你的商業模式是什麼?
- 你的企業成熟度?
這些問題能幫助你思考此階段應該關注什麼樣的數據,並讓這些數據轉化成推動企業成長的執行方針。此外,也要小心不要落入「讓數據幫你決定」的陷阱,在執行 A/B Test 的過程中,我們是一個學習者,也是一個判斷者,數據說明的是結果,如何解讀數據以及做決策的責任,則仍在我們自己身上。
測量:確保改變與結果之間真的有因果關係
身為一個行銷人,你一定做過的廣告的 A/B Test,不管是文案、素材,甚至顯示網址、登陸頁都是可被測試的一環,但你有沒有想過,測試結果是真的有意義,還是只是碰巧?
舉個例子,我們以最低轉換成本為目標,給廣告 A 跟廣告 B 分別 1000 元的預算,最後跑出來的結果如下圖:
廣告 |
平均轉換成本 |
轉單數 |
廣告 A |
250 |
4 |
廣告 B |
200 |
5 |
這時候你會判斷廣告 B 勝出,因為轉換成本比較低,對吧?
但答案卻有可能是否定的,這是因為你還沒有辦法證明兩者之間是否真的有差異,或只是巧合。為了證明他們真的有差異,在這邊我們會用上述例子來說明測量中的三個重要概念,分別是最小可檢測效應、檢定力以及統計顯著性。
最小可檢測效應(Minimum Detectable Effect,MDE)
這代表在 A/B Test 中,我們想在實驗組(廣告 A)與控制組(廣告 B)之間可看到多大的差異性,這個差異性通常與我們的商業目標有關,像是我們做了廣告的 A/B Test,目的就是希望能透過這個實驗來大幅度地增加收益。
那麼廣告 A 與廣告 B 的結果要有多大的差異,我們才判斷這個測試有效呢?
回到上面的例子,我可以在一開始就設定「平均轉換成本必須要有 100 元以上的差異」才稱為有效,而實驗結果的差異僅僅只有 50 元,不符合你的設定,因此我們可以判斷這個廣告實驗是無效的。
最小可檢測效應可以基於你的商業成本(例如原本的廣告 A 平均轉換成本是 250,但你必須要將廣告轉換成本做到 180 元以下才有獲利空間),或是過去執行其他 A/B Test 的經驗(例如過去做的實驗中,轉換成本至少都有 100 元以上的差距)來制定,重要的是它能幫助你判斷這個實驗真的是有效的。
檢定力(Power)
在實驗組與控制組之間真的有差異(存在最小可檢測效應)時,我們可以正確觀察到統計顯著性(先別慌,下面我們會提到)的機率,意即在實驗前就觀察到差別的能力,稱為檢定力。
當最小可檢測效應的數值愈大,我們需要的檢定力就愈小,因為實驗組與控制組之間的差異本來就很大了,不需要我們費心去增加讓他們有顯著差異的機率,但是當最小可檢測效應的數值很小的時候呢?這時候我們就需要提升樣本數來提升檢定力了。
用剛剛廣告的例子來看,廣告 A 與 B 加起來的總訂單數只有 9 筆,可視為只有 9 筆樣本數,這樣的數字會讓我們擔心是不是因為廣告投放金額過小而造成誤差,但若我們將廣告金額提升至 10 萬,在平均轉換成本不變的情況下,廣告 A 帶來 400 筆轉單,廣告 B 則帶來 500 筆轉單,此時兩者訂單數差了 100 筆,我們會傾向相信這個實驗結果是有效的。
你可以把檢定力與樣本數的概念想像成三人成虎這個成語,當一個人說的時候,沒人相信,兩個人說的時候半信半疑,三個人說的時候,大家就都相信了這件事情。
顯著性差異(Statistical Significance)
一般會利用 p 值來代表顯著性差異,而 p 值代表實驗結果間的差異剛好是巧合的機率。例如 p 值 = 0.05,就代表有 5% 的機率這個實驗結果只是巧合,而不是真的有差異。
在許多社會科學領域, p 值被要求要小於 0.05 才被視為統計上顯著,但更重要的是取決於你願意承擔的風險與過去的經驗。例如以往你在執行廣告的 A/B Test 時觀察到 p 值只要小於 0.2 就能被判定為有效,那麼我們也能接受。
當我們要求的顯著性差異愈大,對檢定力的要求也愈高,因為一定要更多的樣本數才能確保這個實驗結果有最大的機率並非巧合。而樣本數的提升也意味著花費更多的錢與時間才能完成實驗,因此這一切都取決於我們在實驗中決定「要什麼或不要什麼」,像是要更低的風險,因此就會需要更多的樣本數。
假設:從成功與失敗中學習,就是 A/B Test 的核心精神
整個 A/B Test 的開始,都起源於一個「假設」,用來預測產品、服務或行銷方式做了改變後會產生什麼結果,而且這個假設是可以被用數字驗證的。事實上,在上一章節我們就對假設做了完整的解釋:
一個完整的假設應該是這樣的句子:
「因為調整了 X,影響到 Y,所以改變到 Z。」
這裡的 Z 需要是一個可量化的數字,才能讓我們在實驗完成後了解此一改動是否有達成預期目標,最好還能有「如果實驗成功,則代表…,若實驗失敗,則代表…。」的思考,這樣無論實驗成功與否,你都能學到東西。
在這裡我想強調,假設的重要性在於「學習」,透過假設來更了解你的使用者、你的商業模式、你的產品,因此假設必須要有意義,這樣無論結果是正面還是負面回饋,你都能知道你的使用者喜歡或不喜歡什麼、你的商業模式與產品適合或不適合什麼,還是能獲得洞見,不會浪費這次的 A/B Test 測試過程。
掌握這四大因素,你已經學會了一半的 A/B Test!
在理解如何評估使用者、設計指標、正確測量數據還有提出可被驗證的假設後,你已經學會如何設計一個完整 A/B Test 測試。可以試著在接下來的行銷計畫裡加入 A/B Test 的元素,確保這次的經驗都能被好好學習吸收,並傳承到下次的活動之中。
不斷的嘗試與學習是 A/B Test 的必備,剛開始看一定會對上述這些名詞與概念感到陌生,但在持續將 A/B Test 的概念融入每次的行銷操作之後,它將內化成你的一項技能,成為幫助你做出最佳判斷的良師益友。