Czego można się nauczyć z 1,001 testów A/B?

Jak długo trwa typowy test A/B? Jaki procent testów A/B kończy się wyłonieniem "zwycięzcy"? Jaki jest przeciętny wzrost osiągnięty w kontrolowanych eksperymentach online? Jak dobrzy są najlepsi specjaliści od optymalizacji współczynnika konwersji w wymyślaniu skutecznych interwencji dla stron internetowych i aplikacji mobilnych?

Wnioski

33,5% testów A/B przyniosło statystycznie istotny pozytywny wynik ze średnim efektem 15,9%, podczas gdy połowa z nich miała szacowany efekt większy niż 7,5%.
Mediana wszystkich testów została oszacowana na 0,08%, a średnia na 2,08%, co wskazuje na korzyści płynące z ekspertyzy CRO przy statystycznie istotnej różnicy od zera.
Dla większości testów szacowany wzrost jest bliski zeru, co ma istotne konsekwencje dla analizy mocy i planowania wielkości próby. Co ważne, dowodzi to potrzeby randomizowanych, kontrolowanych badań z solidną estymacją statystyczną nad metodami obserwacyjnymi, które miałyby znacznie gorsze możliwości wykrywania tak drobnych zmian.
Korzyść z testowania sekwencyjnego w rzeczywistych scenariuszach wynosi co najmniej 26% pod względem średniej poprawy efektywności w porównaniu z równoważnymi testami o stałej wielkości próby
88% testów to proste testy A/B, a tylko 12% to A/B/N, przy czym większość z nich ma tylko dwa warianty versus kontrola, co sugeruje, że eksperci CRO wolą zachować prostotę i iterować, niż przeprowadzać bardziej złożone testy.
Typowy czas trwania testu wynosi około miesiąca, lub od czterech do pięciu tygodni, co sugeruje dobrą generalizację wyników, średnio.
Testy A/B obejmują średnio od 60 342 (mediana) do 217 066 (średnia) użytkowników oraz od 72 322 (mediana) do 376 790 (średnia) sesji.
Większość eksperymentów online przeprowadzana jest z progiem zaufania pomiędzy 80% a 95%.
Połowa testów A/B ma 90% prawdopodobieństwo wykrycia prawdziwego efektu na poziomie 6% lub mniejszym, podczas gdy średni MDE wynosi 11,3%, co sugeruje trend, w którym testy o lepszej mocy stają się normą wśród najlepszych specjalistów.

Przy założeniu, że większość testów w analizie była wykonywana na kluczowych metrykach biznesowych, a niewiele na mniej sekwencyjnych działaniach użytkowników, można od razu wnioskować o korzyściach z testowania nad wdrażaniem. Z dwóch identycznych firm chcących wdrożyć identyczne zmiany, ta która wdroży tylko te zmiany, które przejdą test A/B, osiągnie wielokrotnie szybszy wzrost niż ta, która po prostu wdroży wszystko. Rosłaby też znacznie płynniej, co w biznesie naprawdę się liczy. Przewaga pierwszego z nich wynikałaby z wdrażania tylko zwycięskich testów, których średni wzrost wyniósłby 15,9%, w porównaniu do średniego wzrostu na poziomie nieco ponad 2% w przypadku drugiego, mimo że zwycięskie testy skutkują wdrożeniem nieco ponad jednej trzeciej wszystkich proponowanych zmian.

Chociaż ten ostatni wniosek może być nieco naciągany, powinien być doskonałym przykładem znaczących marginalnych korzyści z testowania, gdy uwzględnimy koszty ogólne statystyki. Różne koszty ogólne przygotowania, prowadzenia i analizowania testów muszą być rozliczane oddzielnie, z typowymi korzyściami skali w grze.