fbpx

A/B тест: как рассчитать статистическую значимость результатов?

a b тест как рассчитать статистическую значимость результатов

Делая A/B тест, задумывались ли вы: являются ли результаты статистически значимыми? Нас как маркетологов не только просят измерить результаты наших кампаний, но и продемонстрировать достоверность результатов.

Как рассчитать статистическую значимость?

Пример из практики. Каждый из двух маркетологов создал версию целевой страницы. Они использовали функциональность своего A/B теста HubSpot для сбора результатов. У них была дружеская ставка на победу.

Через несколько дней у них были результаты. У одного получился немного более высокий коэффициент конверсии. Они задавались вопросом, были ли результаты статистически значимыми. 

Существует ряд бесплатных инструментов для расчета статистической значимости. Чтобы по-настоящему понять, что говорят эти инструменты, полезно их изучить. Особенно, что они рассчитывают и что это значит. Мы приведем конкретный пример, чтобы помочь вам понять статистическую значимость.

1. Определите, что вы хотите проверить.

Сначала решите, что вы хотите проверить. Это может быть сравнение:

  • коэффициентов конверсии на двух целевых страницах с разными изображениями;
  • коэффициентов переходов по электронной почте с разными строками темы;
  • коэффициентов конверсии для разных кнопок призыва к действию в конце сообщения в блоге. Количество вариантов выбора бесконечно.

Выберите фрагмент контента, для которого вы хотите создать два разных варианта. Для начала решите, какова ваша цель: лучший показатель конверсии или больше просмотров.

Вы, конечно, можете протестировать дополнительные варианты или даже создать многомерный тест. Для задач же этого примера мы будем придерживаться двух вариантов целевой страницы. Так мы повысим коэффициент конверсии. 

2. Определите свою гипотезу.

Прежде чем начать сбор данных, я считаю полезным изложить свою гипотезу в начале теста. Еще нужно определить степень достоверности, которую я хочу проверить. 

Я тестирую целевую страницу и хочу посмотреть, будет ли она лучше. Моя гипотеза: существует связь между целевой страницей, которую получают посетители, и их коэффициентом конверсии.

3. Начните собирать ваши данные.

Теперь, когда вы определили, что вы хотите проверить, пришло время начать сбор ваших данных. 

Скорее всего, проводите этот тест, чтобы определить, какой фрагмент контента лучше всего использовать в будущем. Вам нужно выбрать размер выборки. Для целевой страницы это может означать выбор определенного времени для запуска теста. Например, активация вашей страницы в течение 3 дней.

Для чего-то вроде электронного письма вы можете выбрать случайный образец вашего списка. Варианты ваших писем будут отправлены спонтанным образом.

Определение правильного размера выборки может быть сложным. Он будет варьироваться в зависимости от каждого теста. 

Как общее практическое правило, вы хотите, чтобы ожидаемое значение для каждого варианта было больше 5.

Мы рассмотрим ожидаемые значения ниже.

4. Рассчитать результаты хи-квадрат.

Существует ряд различных статистических тестов, которые вы можете запустить. Это позволит измерить значимость на основе ваших данных. Что лучше всего использовать? Это зависит от того, что вы пытаетесь проверить, и какой тип данных вы собираете. 

В большинстве случаев вы будете использовать критерий хи-квадрат, поскольку данные являются дискретными.

Дискретный способ говорит, что существует конечное число результатов, которые можно получить. Например, посетитель будет либо конвертировать, либо не конвертировать. Для одного посетителя не существует разных степеней конверсии.

Вы можете проводить тестирование на основе разной степени достоверности. Иногда ее называют альфа-тестом. Если вы хотите, чтобы требование для достижения статистической значимости было высоким, альфа должен быть низким. Возможно, вы видели статистическую значимость с точки зрения достоверности.

Например, получены результаты статистически значимы с достоверностью 95%. В этом сценарии альфа равнялась 0,05. Достоверность рассчитывается как 1 минус альфа. Это означает, что вероятность ошибиться в заявленной взаимосвязи составляет 1 к 20.

После сбора данных я поместил их в диаграмму, чтобы упростить их организацию. Я тестирую 2 разных варианта A и B. Есть 2 возможных результата, конвертированных, не конвертированных, у меня будет график 2×2. Я буду суммировать каждый столбец и строку, чтобы я мог легко увидеть результаты в совокупности.

расчет результатов хи квадрат

5. Рассчитайте ваши ожидаемые значения.

Теперь я вычислю ожидаемые значения. В приведенном выше примере мы ожидали бы увидеть одинаковые коэффициенты конверсии с обеими версиями. Это в случае, если бы не было никакой связи между тем, что посетители целевой страницы видели, и их коэффициентом конверсииПолучилось, что конвертировали 1945 человек из 4 935 посетителей. Это примерно 39% посетителей.

Нужно рассчитать ожидаемые частоты для каждой версии целевой страницы, предполагая, что разницы нет. Мы можем: умножить количество строк для этой ячейки на количество столбцов для этой ячейки и разделить его на количество посетителей. В этом примере, нужно найти ожидаемое значение конверсии в версии A. Я бы использовал следующее уравнение: (1945 * 2401) / 4935 = 946.

расчет ожидаемых значений

6. Посмотрите, как ваши результаты отличаются от того, что вы ожидали.

Чтобы вычислить хи-квадрат, я сравниваю наблюдаемые частоты с ожидаемыми частотами. 

Это сравнение выполняется так:

  • вычитается наблюдаемое из ожидаемого,
  • возводится в квадрат результата,
  • результат делится его на значение ожидаемой частоты.

Я пытаюсь понять, насколько мои реальные результаты отличаются от того, что мы можем ожидать. Возведение в квадрат разницы усиливает влияние разницы, а деление на ожидаемое нормализует результаты. Уравнение выглядит так: (ожидаемый — наблюдаемый) ^ 2) / ожидаемый.

вычисление хи квадрата

7. Найдите свою сумму.

Затем я суммирую четыре результата, чтобы получить число хи-квадрат. В данном случае это 0,95. Нужно увидеть, отличаются ли коэффициенты конверсии для моих целевых страниц от статистической значимости. Я сравниваю это со значением из таблицы распределения хи-квадрат. Она основана на моей альфе, в данном случае 0,05, и степенях свободы.

Степень свободы зависит от того, сколько у вас переменных. С таблицей 2×2, как в этом примере, степень свободы равна 1. 

В этом случае значение хи-квадрат должно быть равно или превышать 3,84. Тогда результаты будут статистически значимыми. Поскольку 0,95 меньше 3,84, мои результаты статистически не отличаются. Нет никакой связи между тем, какую версию целевой страницы посетитель получает, и коэффициентом конверсии со статистической значимостью.

Почему статистическая значимость важна?

Почему это важно, если вы можете просто использовать бесплатный инструмент для выполнения расчетов?

Понимая то, как рассчитывается статистическая значимость, вы определите, как лучше всего тестировать результаты своих собственных экспериментов.

Многие инструменты используют уровень достоверности 95%. Для ваших экспериментов может иметь смысл использовать более низкий уровень достоверности. Это так, если вам не требуется, чтобы тест был более строгим.

Понимая основные расчеты поможет вам объяснить тем, кто не знаком со статистикой, почему ваши результаты важны.

По материалам сайта: https://blog.hubspot.com.

❤️ В каком случае тест будет статистически значимым, если в общем сказать?

Если существует очень низкая вероятность того, что результат мог произойти случайно.

❤️ Для чего особенно нужно вычислять статистическую значимость?

Для исключения бесперспективных гипотез.

⏩ Что такое уровень значимости?

Это вероятность отклонения нулевой гипотезы, когда она верна.

⏩ Какое влияние у р-значения?

Чем меньше p-значение, тем больше уверенности в том, что нулевая гипотеза может быть отвергнута.