Специалист по оптимизации конверсии и маркетолог компании Dynamic Yield Янив Навот составил пять причин, почему не нужно следовать результатам A/B-тестирования. В рубрике Growth Hacks перевод его статьи .
Хочу признаться: я отношусь к большинству кейсов A/B-тестирования с позиции «люблю или ненавижу». Мне нравится читать тематические исследования про процессы оптимизации конверсии с использованием A/B-тестирования. Это всегда было моим хобби и вдохновляло на эксперименты. Но в один день я понял, что магия большинства тематических исследований в значительной мере опирается на неизвестность.
В тот день я решил пойти другим путем и перестал читать популярные отчеты о тестированиях. Есть огромное количество ресурсов, которые приводят реальные кейсы, демонстрирующие значительное повышение конверсии и прибыли. Хотя многие из нас любят читать подобные вещи, мы должны придавать больше внимания деталям: с критикой относиться к данным, предположениям и методикам. Я считаю, что каждый такой кейс должен сопровождаться предупреждающим сигналом:
Не думайте, что вы получите аналогичные результаты на вашем сайте без предварительного самостоятельного тестирования.
Вот список причин, которые я привожу в качестве «синдрома слепоты» кейсов по A/B-тестированию:
- 1. То, что работает для одного проекта, не обязательно будет работать для другого
- 2. Качество тестов изменчиво
- 3. Результаты эксперимента могут быть непостоянны во времени
- 4. Ложные гипотезы и выгодная интерпретация результатов
- 5. Эксперименты, которые не сработали хорошо, как правило, не публикуются
- Сигналы надежности А/B-теста
1. То, что работает для одного проекта, не обязательно будет работать для другого
Обобщая любой результат A/B-тестирования, основываясь на одном отдельном случае, можно получить ложные выводы. Поступая таким образом, вы игнорируете специфику аудитории. Некоторые идеи будут работать на вашем сайте, но многие сложно назвать универсальными.
2. Качество тестов изменчиво
Я боюсь, что большая часть кейсов не включает информацию, необходимую для оценки качества их проведения. На самом деле, некоторым из них не хватает достоверных статистических выводов. При изучении очередного исследования задайте себе вопросы: «Какова была полная методология эксперимента? Были ли отклонения данных, которые привели к искажению всего результата теста? Какова статистическая значимость всей выборки? Каков размер выборки посетителей, на которой проводился эксперимент? Учли ли они распространенные ошибки, влияющие на обоснованность результатов?»
3. Результаты эксперимента могут быть непостоянны во времени
Результаты любого A/B-тестирования могут отличаться на разных промежутках времени. Другими словами, они действительны только для того момента, когда был совершен эксперимент. Для того, чтобы обобщить результаты на всей аудитории и доказать, что улучшения были действительны в течение времени, мы должны периодически запускать и проводить этот же эксперимент. В большинстве кейсов по A/B-тестированию отсутствует подтверждение заметно отсутствие устойчивости результатов, что делает их менее надежными.
4. Ложные гипотезы и выгодная интерпретация результатов
Многие из нас стремятся связать определенные результаты с конкретным поведением. Мы ищем ответ на вопрос «Почему?» и забываем, что не тестировали это «Почему?» в первую очередь. Приписывание результатов эксперимента определенному поведенческому фактору является естественным, но это может действовать в качестве катализатора для ложных предположений и неверных толкований.
Когда мы проводим эксперимент, мы ищем статистически значимую корреляцию между изменениями и реакцией на них. Достижение статистически значимых результатов не означает, что есть определенная причинно-следственная связь между ними. Просто это слишком трудно измерить с использованием традиционного A/B-теста. Тенденция вводить собственные интуитивные причины еще больше подтверждает тот факт, что всегда есть место для случайности, и мы, как правило, интерпретируем результаты в более удобном для нас ключе.
5. Эксперименты, которые не сработали хорошо, как правило, не публикуются
Большинство A/B-тестов неудачные по множеству причин: от неверного выполнения до ошибочных гипотез. На самом деле, мы редко слышим о неудачных кейсах, хотя они могут дать определенное понимание. Естественно, люди предпочитают публиковать свои истории успеха, а не провалы. Также зачастую истории упрощают, чтобы они выглядели довольно легкими. Правда в том, что A/B-тестирование представляет собой долгий и трудный процесс со многими препятствиями и сюрпризами.
A/B-тестирование представляет собой долгий и трудный процесс со многими препятствиями и сюрпризами.
Сигналы надежности А/B-теста
Я не говорю, что все кейсы плохи, есть действительно хорошие посреди множества бестолковых. Написание кейсов очень важно, так как вы можете оценить качество эксперимента и отделить зерна от плевел. Мой совет — продолжайте читать исследования и кейсы, но старайтесь найти ответы на вопросы, которые я поднял в этой статье.
Проверьте надежность изучаемых кейсов:
- Какова была первоначальная гипотеза?
- Как долго проводился тест?
- Каков размер выборки?
- Какова аудитория эксперимента?
- Какой инструмент использовался для A/B-тестирования?
- Проводилось ли повторное тестирование для проверки устойчивости результатов?
Я рекомендую использовать калькулятор Эвана Миллера для определения объема выборки и таблицу статистической значимости Авинаша Каушика для того, чтобы быть уверенным в результатах эксперимента.
Опубликованные тематические исследования являются отличной отправной точкой для получения идей для тестирования, изучения передового опыта и понимания общих вариантов использования. Но вы всегда должны критиковать методологию проведения и интерпретацию экспериментов и никогда не следовать им вслепую. Будьте настроены скептически и всегда проверяйте идеи и предположения на собственном сайте и целевой аудитории.
Подписывайтесь на Growth Hacks в специальных аккаунтаух на Facebook, Twitter и во «ВКонтакте».
Присылайте свои материалы на what@growthhacks.ru, и вы тоже сможете стать автором рубрики Growth Hacks.
About the author