Eksperymenty A/B jeśli trwają zbyt długo, będa opóźniały kolejne iteracje, lub skalowanie. Zbyt krótki czas trwania eksperymentu natomiast zwiększa ryzyko wyciągnięcia błędnych wniosków i tworzenia kolejnych iteracji na złych hipotezach.
Eksperymenty A/B jeśli trwają zbyt długo, będa opóźniały kolejne iteracje, lub skalowanie. Zbyt krótki czas trwania eksperymentu natomiast zwiększa ryzyko wyciągnięcia błędnych wniosków i tworzenia kolejnych iteracji na złych hipotezach.
Dlatego praktycy zawsze szukają tego złotego środka (dosłownie) w czasie utrzymywania eksperymentu. Jak go znaleźć? Warto przyjąć sobie kilka założeń, które Ci w tym pomogą:
Minimalny czas trwania eksperymentu
Jest to podstawowe kryterium, ponieważ po pierwsze jest dosyć proste do oszacowania chociażby za pomocą gotowych kalkulatorów online a po drugie, znając minimalną próbkę oraz czas trwania eksperymentu, jesteś w stanie dość precyzyjnie określić, kiedy Twój eksperyment osiągnie odpowiednio dużą istotę statystyczną.
Backlog
Posiadanie gotowych testów a/b w kolejce do uruchomienia, może wytworzyć dodatkową presję, aby po prostu uruchamiać kolejne jak najszybciej. Z drugiej strony natomiast, jeśli nie masz kolejnych eksperymentów w backlogu, warto takim eskperymentom dać więcej czasu, szczególnie, kiedy nie są one istotne statystycznie. Czasami testy a/b okazują się nieistotne nie dlatego, że tak naprawdę nie przynoszą efektu, ale raczej dlatego, że mogły zostać niedoszacowane przy nieodpowiedniej próbie lub czasie trwania. A dodatkowa ekspozycja może dać nam wyraźniejszy sygnał.
Historyczne dane
Nasze eksperymenty mogą, ale nie muszą być podobne do wyników innych podobnych eksperymentów przeprowadzanych w przeszłości. Kiedy dwa lub więcej eksperymentów jest podobnych, daje nam to silniejszy sygnał i większą pewność, a to ułatwia nam podjęcie decyzji. Z drugiej strony, gdy dwa podobne eksperymenty mają przeciwstawne skutki, może to być oznaką niekompletnego eksperymentu. Oczywiście, czasami taki się zdarzy, że faktycznie różne wyniki się pojawią przy podobnych eksperymentach i nie warto doszukiwać się błędu.
Spójność danych na całym lejku
Kiedy śledzimy wiele wskaźników, mamy wtedy możliwość sprawdzenia czy eksperyment jest spójny, czy nie.
Wyobraźmy sobie, że przeprowadzamy eksperyment na stronie produktu e-commerce z kilkoma krokami (ścieżką), zanim klient dokona transakcji. Gdy mamy analitykę dla wszystkich kroków wraz z ostateczną wartością sprzedaży, zazwyczaj możemy spodziewać się jakiejś formy spójności (pozytywnej lub negatywnej) na całej ścieżce. Mówiąc dokładniej, gdybyśmy wprowadzili pozytywną zmianę na stronie produktu, spodziewalibyśmy się, że przełoży się ona na kolejne etapy, zanim stanie się widoczna w ostatecznym wskaźniku sprzedaży. Gdy nasze metryki są spójne i możliwe do wyjaśnienia, łatwiej nam jest przerwać eksperyment. Z drugiej strony, jeśli widzimy niespójne metryki, które mogą być trudne do wyjaśnienia, może to być oznaką przypadku lub szumu wpływającego na nasz eksperyment, co może sugerować, że może on potrzebować więcej czasu.