[language-switcher]
Search
Close this search box.
Search
Close this search box.

Юзабилити тестирование сайтов.

Тестирование

От электронной коммерции до банковских приложений и систем здравоохранения и всего. Пользователи ожидают, что оно будет работать при любом взаимодействии, на любой возможной платформе и операционной системе.

Тем не менее, несмотря на необходимость предоставления цифрового опыта, исследования Gartner показывают, что только 18 процентов компаний обеспечивают желаемое качество обслуживания клиентов.

Большая часть этого разрыва между ожиданиями и реальностью заключается в том, что цифровой бизнес зависит от качества их программного обеспечения и приложений. А они часто не работают должным образом. 

В эпоху, когда цифровое преобразование настолько зависит от качественного программного обеспечения, тестирование никогда не было более критическим. 

Однако в течение последнего десятилетия тестирование было сосредоточено на проверке. То есть, работают ли программы и код? А не подтверждение, делает ли то, что ожидаю и хочу?

По мере того, как компании прогрессируют в своих путешествиях по цифровым преобразованиям, очень важно, чтобы тестирование сосредоточилось на ответе на последний вопрос. 

Тестирование программного обеспечения должно сводиться к простой проверке того, что приложение соответствует техническим требованиям и к обеспечению лучшего пользовательского опыта и бизнес-результатов.






https://www.youtube.com/watch?v=-apSmGKko78

Подтверждение проверки.

Тестирование сайтов

Тестирование должно перейти от проверенной деятельности к непрерывному процессу качества. 

Цель состоит в том, чтобы понять, как техническое поведение приложения влияет на впечатления клиентов и конверсию для бизнеса. Более того, речь идет об определении возможностей для улучшений и прогнозировании влияния этих улучшений на бизнес.

Проверочное тестирование просто проверяет, что код соответствует спецификации, предоставленной бизнесом. Предполагается, что эти спецификации идеально подходят и полностью повторяют то, как пользователи взаимодействуют с программным обеспечением и используют его.

Однако разработчик спецификаций просто не может знать, как пользователи будут реагировать на каждую часть программного продукта или записывать все, что может повлиять на качество обслуживания клиентов. 

Даже если бы они были, это сделало бы разработку программ мучительно медленной. Принимая этот подход, предполагается, что проверка также была выполнена в результате. Однако это скорее мираж, а не реальность, и это привело к тому, что юзабилити игнорируется с точки зрения тестирования программного обеспечения.

Компании должны отказаться от устаревшего подхода к проверке только того, работает ли программное обеспечение. Вместо этого принять стратегию, которая оценивает точку зрения пользователя и предоставляет идеи для оптимизации их работы. 

Если вы заботитесь о User Experience и заботитесь о результатах бизнеса, вам необходимо тестировать продукт извне, как это делает пользователь. Только тогда вы сможете по-настоящему оценить пользовательский опыт (UX).

Ориентированный на пользователя подход к тестированию гарантирует, что ошибки пользовательского интерфейса, ошибки и проблемы с производительностью выявляются и устраняются задолго до того, как приложение заработает. И не могут оказать негативное влияние на качество обслуживания клиентов и, возможно, восприятие бренда. 

Быстрые, надежные веб-сайты и приложения повышают уровень вовлеченности, приносят доход и способствуют достижению положительных деловых результатов. Обеспечение достижения этих целей должно стать неотъемлемой частью современных стратегий тестирования.

Например, банковское приложение может соответствовать всем критериям спецификации. Но если от клиентов требуется добавлять данные своей учетной записи каждый раз, когда они хотят получить доступ к своей учетной записи, они быстро потеряют терпение. Прекратят использовать приложение и в конечном итоге перейдут к конкуренту. 

Именно поэтому компаниям необходимо переосмыслить то, как они оценивают программное обеспечение и приложения, и переориентировать свое внимание на удовлетворение ожиданий и потребностей своих клиентов.

Если компании хотят сократить разрыв с клиентом, им нужно переосмыслить свои оценки программного обеспечения и приложений. 

Валидационное тестирование должно быть основополагающим элементом стратегий тестирования. Однако организациям необходимо начать тестирование пользовательского интерфейса и модернизировать свой подход. Тогда они смогут идти в ногу с темпами DevOps. Это важный драйвер для цифровой трансформации.

Исторически единственными организациями, проводящими валидационные испытания, были команды с опытными возможностями ручного исследовательского тестирования. Поисковое тестирование оценивает функциональность, производительность и удобство использования, а также учитывает весь спектр тестов. 

Однако он не прозрачен, не качественен и не воспроизводим, и его трудно включить в непрерывный процесс разработки. Ручное предварительное тестирование является дорогостоящим в масштабе, так как оно отнимает много времени, а количество опытных тестировщиков ограничено.

Клиент-ориентированное тестирование.

Клиент ориентирование тестирование

Ориентированное на клиента тестирование – это новый подход, который автоматизирует предварительное тестирование на масштабируемость и скорость. 

По сути, тестирование, ориентированное на клиента, фокусируется на пользовательском опыте, а не на спецификации. Это также помогает ускорить традиционное тестирование на основе спецификаций. 

Искусственный интеллект (AI) и машинное обучение (ML) в сочетании с тестированием на основе моделей открыли возможность проводить тестирование по требованию заказчика.

Интеллектуальная автоматизация тестирования программного обеспечения позволяет компаниям непрерывно тестировать и контролировать сквозной цифровой пользовательский опыт. 

Он анализирует приложения и реальные данные для автоматического создания и выполнения пользовательских путей. Затем он создает модель системы и путей пользователей и автоматически генерирует контрольные примеры, которые обеспечивают надежный охват пользовательского опыта, а также производительности и функциональности системы.

С помощью автоматизации обратной связи с продуктом вы можете быстро находить проблемы и решать их. Как только это произойдет, интеллектуальная автоматизация может пойти еще дальше. ИИ строит модель, наблюдая и понимая систему. Он ищет ошибки, связанные с приложением, тестированием и разработкой, чтобы понять риск.

ИИ оценивает производство, чтобы выяснить, что имеет значение для бизнеса. Эта информация о факторах риска и влиянии на бизнес направляет тестирование в нужное место. В отличие от миража тестирования со спецификацией.

Технологии AI и ML рекомендуют выполнять тесты, постоянно. Учить системы и выполнять интеллектуальный мониторинг, который может предсказать влияние на бизнес и позволить командам разработчиков устранять проблемы до их возникновения. 

Эти передовые технологии являются основными компонентами тестирования, ориентированного на клиента, но необходим еще один важный элемент: человеческий интеллект.

Человеческий фактор в Юзабилити.

Клиентоориентированное тестирование не означает смерть тестера. Машины отлично умеют автоматизировать процессы и сопоставлять данные, но не способны воспроизвести творческую часть тестирования. 

Это включает в себя интерпретацию данных в реальное человеческое поведение и разработку гипотез о том, где будут проблемы.

Тестер должен предоставить подсказки и указания, так как машины не могут повторить свой опыт и интуицию. Творческий подход человека важен для управления процессом тестирования, ориентированного на клиента.

Автоматизированные аналитические и тестовые продукты предоставляют огромные объемы данных о том, как пользователь ведет себя в интерфейсе «человек-приложение», но для этого требуется, чтобы человек понимал, почему этот человек предпринял это действие. 

Человек установит пороговые значения для ошибок. Например, потянет за рычаги и направит алгоритмы. Ориентированное на клиента тестирование возможно только с тестерами-людьми, дополненными современной технологией.

UX и тестирование.

Юзабилити тестирование

Оцифровка быстро меняет способы взаимодействия компаний и клиентов друг с другом. Понимание и оптимизация работы с клиентами и обеспечение того, чтобы приложения отвечали бизнес-целям, теперь являются критически важными для цифрового бизнеса. 

Практики, которые просто подтверждают, что программное обеспечение работает, должны быть удалены, или организации рискуют отстать от своих конкурентов.

Новый подход к тестированию имеет важное значение. Комбинация тестирования на основе искусственного интеллекта в сочетании с ux-юзабилити экспертами управляющими автоматизацией, делает возможным тестирование по требованию заказчика. 

Если предприятия хотят сократить разрыв с клиентским опытом, они должны повернуться и посмотреть на производительность своих цифровых продуктов глазами клиента. 

Если сайты и информация действительно управляет миром, то вам нужно убедиться, что это радует ваших клиентов, а не просто работает.

✓ Что такое автоматизированное тестирование?

Это проверка приложения на соответствие и их обеспечению пользовательского опыта.

✓ Что такое проверочное тестирование?

Проверка на соответствие кода спецификации предоставленном бизнесом в техническом задании.

✓ Что такое клиент-ориентированное тестирование?

Это подход, который автоматизирует предварительное тестирование на масштабируемость и скорость. 

✓ Что такое валидационное тестирование?

Ручное исследовательское тестирование, которое оценивает функциональность, производительность и удобность пользования, а также учитывает весь спектр тестов.

✓ Как влияет человеческий фактор в Юзабилити?

Он позволяет воспроизвести творческую часть тестирования. 

✓ Зачем нужно тестирование?

Программное обеспечение не работает стабильно. Тестирование – это постоянный процесс в работе любой компании.

✓ Что такое юзабилити-тестирование на примере?

Юзабилити-тестирование определяется как оценка продукта путем тестирования его на потенциальных пользователях. Если, например, производитель стиральных машин хотел бы проверить удобство использования своего продукта, ему пришлось бы протестировать его на потенциальном покупателе.

Инструменты и методы A/B и A/B/n тестирования сайта.

Инструменты для A/B и A/B/n тестирования сайта

Начиная с тестирования неправильных вещей и заканчивая неправильными A/B тестами, люди не получают желаемого результата при тестировании своего сайта. На самом деле существует масса нюансов, в которых новичок может ошибиться. Поэтому необходимо ответственно подойти к A/B тестированию.






Что такое А/B тестирование?

Когда исследователи проверяют эффективность новых лекарств, они используют «сплит-тест». Фактически, большинство исследовательских экспериментов можно было бы считать «разделенным тестом», ведь он дополняется гипотезой, контролем, вариацией и статистически рассчитанным результатом.

Также и с A/B-тестом, трафик 50/50 будет разделен между исходной страницей и вариантом:

A/B тестирование трафик

Для оптимизации конверсии основное отличие – изменения в интернет-трафике. В лаборатории легче контролировать внешние переменные. В режиме онлайн вы можете смягчить их, но сложно создать полностью контролируемый тест.

Кроме того, тестирование новых препаратов требует почти определенной степени точности. Жизни на линии. С технической точки зрения, ваш период «исследования» может быть намного дольше, так как вы хотите быть точно уверены, что не допустите ошибки первого типа – ложного срабатывания.

В режиме онлайн процесс A/B-сплит-тестирования учитывает бизнес-цели. Он взвешивает риск и вознаграждение. Поэтому мы рассматриваем результаты с другой точки зрения и принимаем решения иначе, чем те, которые проводят в лаборатории.

Конечно, вы можете создать более двух вариантов. Тесты с более чем двумя вариациями известны как тесты A/B/n. Если у вас достаточно трафика, вы можете протестировать столько вариантов, сколько захотите. Вот пример теста A/B/C/D, и сколько трафика выделяется каждому варианту:

Тест A/B/n равномерно распределяет трафик

Тесты A/B/n отлично подходят для реализации большего количества вариантов одной и той же гипотезы, но они требуют больше трафика, поскольку разделяют его на несколько страниц.

Хотя А/В тесты самые популярные, это лишь один из видов онлайн-экспериментов. Вы также можете запустить многовариантные тесты.

Многомерное тестирование и A/B/n алгоритмы. В чем разница?

A/B/n-тесты – это контролируемые эксперименты. Запускают одновременно один или несколько вариантов на исходной странице. Для получения результата сравнивают коэффициенты конверсии среди вариантов на основе одного изменения.

Многомерные тесты проверяют несколько версий страницы, чтобы определить, какие атрибуты оказывают наибольшее влияние. Другими словами, многовариантные тесты похожи на тесты A/B/n в том смысле, что они проверяют оригинал на соответствие вариациям, но каждый из них содержит разные элементы дизайна. Например:

Многовариантные тесты

В данном примере многомерного теста показано 3 элемента на странице с тремя различными вариантами. Если такой тест проводить как AB тест, то нам потребуется провести 3 в третей степени вариантов. Всего 27 тестов.

Используйте A/B-тестирование, чтобы определить лучшие макеты.
Применяйте многовариантные тесты, чтобы усовершенствовать макеты и убедится, что все элементы хорошо взаимодействуют друг с другом.
Вам нужно иметь огромный трафик на странице, которую вы тестируете, прежде чем рассматривать многовариантное тестирование. Но если у вас достаточно трафика, вы должны использовать оба типа проверок в своей программе оптимизации.

Большинство агентств отдают предпочтение A/B-тестированию, потому что вы обычно тестируете более значительные изменения с большим потенциальным воздействием, а также потому, что их проще выполнять. Как однажды сказал Пип: «Большинство ведущих агентств, с которыми я говорил об этом, проводят ~ 10 А/Б тестов на каждые 1 МВТ».

A/B/n алгоритмы – это тесты A/B/n, которые обновляются в режиме реального времени в зависимости от производительности каждого варианта.

По сути, алгоритм A/B/n начинается с отправки трафика на две или более страницы: оригинал и вариант n. Затем, чтобы «чаще оставаться в выигрыше», алгоритм обновляется в зависимости от того, какой вариант является наиболее удачным. В конце концов, алгоритм полностью использует лучший вариант:

Использование выигрышного варианта

Одно из преимуществ A/B/n тестирования заключается в том, что они смягчают отрицательные результаты.

A/B/n тесты отлично подходят для:

  • заголовков и краткосрочных кампаний;
  • автоматизации для масштаба;
  • ориентации;
  • оптимизации смешивания с атрибуцией.

Независимо от того, какой тип теста вы выполняете, важно понимать суть, чтобы выбрать тот, который повышает ваши шансы на успех. Это означает, что нужно проводить больше тестов.

Как улучшить результаты А/В теста?

Не обращайте внимания на сообщения в блоге про «99 вещей, которые вы можете протестировать прямо сейчас». Это пустая трата времени и трафика. Процесс не принесет вам больше денег.

Около 74% оптимизаторов со структурированным подходом к конверсии также заявляют об улучшении продаж. Те, у кого нет структурированного подхода, остаются в том, что Крейг Салливан называет «корытом разочарования», если только их результаты не завалены ложными срабатываниями, о которых мы поговорим позже.
Чтобы упростить процесс выигрыша, структура выглядит примерно так:

  • исследование;
  • приоритезация;
  • экспериментирование;
  • анализирование, учет и повтор.


Чтобы начать оптимизацию, вам нужно знать, что делают ваши пользователи и почему.

Итак, думать нужно в следующем порядке:

  • Определите ваши бизнес-цели.
  • Определите цели вашего сайта.
  • Определите ваши ключевые показатели эффективности.
  • Определите ваши целевые показатели.

Как только вы знаете, куда движетесь. Вы сможете собрать данные, необходимые для достижения поставленных целей. Для этого мы рекомендуем ResearchXL Framework.

Вот краткое изложение процесса, который мы используем в CXL:

  • эвристический анализ;
  • технический анализ;
  • анализ веб-аналитики;
  • анализ машинного слежения;
  • качественные опросы;
  • пользовательское тестирование и копирование.

Эвристический анализ близок к «лучшим практикам». Даже после многолетнего опыта вы не сможете точно сказать, что будет работать. Но вы можете определить области возможностей.

Он помогает создать структуру. При проведении эвристического анализа мы оцениваем каждую страницу на основе следующего:

  • релевантность;
  • ясность;
  • ценность.

Технический анализ часто упускается из виду. Ошибки, если они есть, убивают конверсию. Вы можете подумать, что ваш сайт работает отлично с точки зрения пользовательского опыта и функциональности. Но работает ли он одинаково хорошо с каждым браузером и устройством? Возможно нет.

Итак, начнем с:

  • Выполнение кросс-браузерного и кросс-устройственного тестирования.
  • Анализ скорости.
  • Анализ веб-аналитики. Убедитесь, что все работает. Вы будете удивлены тем, сколько настроек аналитики может быть нарушено.

Далее применяется анализ отслеживания мыши, который включает тепловые карты, карты прокрутки, карты кликов, аналитику форм и повторы пользовательских сеансов. Не увлекайтесь визуализацией карт кликов.

Многие люди считают, что качественный анализ «мягче» или проще, чем количественный, но он должен быть таким же строгим и может дать понимание, столь же важное, как и аналитика.

Для качественного исследования используйте такие вещи, как:

  • опросы на местах;
  • опросы клиентов;
  • интервью с клиентами и фокус-группы;
  • пользовательское тестирование.

Идея проста: понаблюдайте за тем, как реальные люди используют ваш веб-сайт и взаимодействуют с ним. Обратите внимание на то, что они говорят и что они испытывают.

С помощью тестирования оригинала вы узнаете, как ваша реальная целевая аудитория воспринимает сайт, что ясно или неясно, какие аргументы они учитывают, а какие нет.

После тщательного исследования у вас будет много данных. Следующим шагом будет установление приоритетов этих данных для тестирования.

Как расставить приоритеты для А/B гипотезы.

Существует множество структур для определения приоритетов ваших A/B-тестов и вы даже можете вводить новшества с помощью собственной формулы. Способ, чтобы расставить приоритеты в работе. Пройдя все шаги, вы обнаружите проблемы – серьезные и незначительные. Распределите каждую находку в одном из пяти сегментов:

  • Тестовое задание. В этой части вы размещаете вещи для тестирования.
  • Инструмент. Это может включать исправление, добавление или улучшение обработки тегов или событий в аналитике.
  • Выдвижение гипотезы. Здесь вы нашли страницу, виджет или процесс, который не работает должным образом.
  • Просто сделай это. Тут все и так ясно. Работа над ошибками.
  • Исследовать. Нужно задавать вопросы или копать глубже.

Оцените значимость каждой проблемы от 1 до 5 звезд, 1 = второстепенный, 5 = критический.

Есть два критерия, которые являются более важными, чем другие, при оценке:

  • Простота реализации: время, сложность, риск. Иногда данные говорят вам о создании функции, на разработку которой уйдут месяцы. Не начинайте с неё.
  • Возможность. Оценивайте вопросы субъективно в зависимости от того, насколько сильно они могут вызвать подъем или изменение.

Создайте электронную таблицу со всеми вашими данными. У вас будет приоритетный план тестирования. Мы разработали собственную модель расстановки приоритетов, чтобы отсеять субъективность, насколько это возможно. Это основано на необходимости вносить данные в таблицу. Он называется PXL и выглядит так:

Приоритетный план тестирования

Вместо того, чтобы угадывать, как это может повлиять, эта структура задает вам ряд вопросов:

  • Изменение выше сгиба? Все больше людей замечают изменения, превышающие их. Таким образом, эти изменения, скорее всего, окажут влияние.
  • Заметно ли изменение менее чем за 5 секунд? Покажите группе людей контроль, а затем вариацию “и”. Могут ли они показать разницу через 5 секунд? Если нет, то это может оказать меньшее влияние.
  • Это добавляет или удаляет что-нибудь? Большие изменения, такие как удаление отвлекающих факторов или добавление ключевой информации, оказывают большее влияние.
  • Тест выполняется на страницах с большим трафиком? Улучшение страницы с большим трафиком дает большую отдачу.

Многие потенциальные тестовые переменные требуют данных для определения приоритетности ваших гипотез. Еженедельные обсуждения, в которых задаются эти четыре вопроса, помогут вам определить приоритеты тестирования на основе данных, а не мнений:

  • Устраняет ли это проблему, обнаруженную в ходе пользовательского тестирования?
  • Это решение проблемы, обнаруженной с помощью качественной обратной связи: опросов, интервью?
  • Поддерживается ли гипотеза отслеживанием мыши, тепловыми картами или отслеживанием глаз?
  • Есть ли несовпадения идей полученных с помощью цифровой аналитики?

Мы также ограничиваем простоту реализации, заключая в скобки ответы в соответствии с расчетным временем. В идеале разработчик тестов является частью обсуждения приоритетов.

Оценка PXL.

Мы предполагаем бинарную шкалу: нужно выбрать одну или другую. Таким образом, для большинства переменных выбираете либо 0, либо 1.

Но мы также хотим взвешивать переменные в зависимости от важности. Насколько заметно изменение, если что-то добавлено или удалено? Для этих переменных мы специально говорим, как все меняется. Например, в поле «Заметность» переменной «Изменение» вы можете пометить его как 2 или 0.

Настраиваемость.

Мы создали эту модель, полагая, что вы можете и должны настраивать переменные в зависимости от того, что важно для вашего бизнеса.

Например, возможно, вы работаете с командой по брендингу или пользовательскому опыту, и гипотезы должны соответствовать рекомендациям бренда. Добавьте это как переменную.

Возможно, вы находитесь в стартапе, чей движок работает на SEO. Возможно, ваше финансирование зависит от этого потока клиентов. Добавьте категорию вроде «SEO», что поможет изменить некоторые заголовки или копировать тесты.

Все организации работают в разных предположениях. Настройка шаблона может учитывать их и усовершенствовать вашу программу оптимизации.

Какую бы структуру вы ни использовали, сделайте ее систематической и понятной для всех в команде, а также для заинтересованных сторон.

Как долго проводить А/B тесты?

Первое правило: не останавливайте тест только потому, что он достигает статистической значимости. Это, вероятно, самая распространенная ошибка, совершаемая начинающими оптимизаторами с добрыми намерениями.

Если вы остановите тесты, когда достигнете значимости, вы обнаружите, что большинство из методов не приводят к увеличению дохода.

Примите во внимание следующее: когда было выполнено 1000 A/A-тестов (две идентичные страницы):

  • 771 эксперимент из 1000 достиг 90% значимости в какой-то момент.
  • 531 эксперимент из 1000 достиг 95% значимости в какой-то момент.

Остановка тестов на значимости рискует получить ложные срабатывания и исключает гарантии достоверности, среди которых сезонность.

Определите размер выборки и запустите тестирование на полные недели, обычно не менее двух рабочих циклов.

Как вы определяете размер выборки? Есть много отличных инструментов. Вот как вы можете рассчитать размер выборки с помощью инструмента Эвана Миллера:

Инструмент Эвана Миллера

В этом примере мы указали инструменту, что у нас коэффициент конверсии 3% и мы хотим обнаружить повышение как минимум на 10%. Этот инструмент говорит нам, что нам нужно 51 486 посетителей на каждый вариант, прежде чем мы сможем взглянуть на уровни статистической значимости.

Помимо уровня значимости, существует нечто, называемое статистической силой. Статистическая мощность пытается избежать ошибок типа II (ложные отрицания). Другими словами, это повышает вероятность того, что вы обнаружите эффект, если он действительно был.

Для практических целей, знайте, что 80% мощности является стандартом для инструментов A/B-тестирования. Чтобы достичь такого уровня, вам понадобится либо большой размер выборки, либо большой размер эффекта, либо более длительный тест.

Там нет магических чисел.

Многие посты в блогах рекламируют магические числа, такие как «100 конверсий» или «1000 посетителей» в качестве точек остановки. Математика не волшебство. То, с чем мы имеем дело, немного сложнее, чем упрощенная эвристика, подобная этим цифрам. Эндрю Андерсон из Malwarebytes хорошо сказал:

Мы хотим представительный образец. Как мы можем получить это? Тест на два бизнес-цикла для смягчения внешних факторов:

  • День недели. Ваш ежедневный трафик может сильно варьироваться.
  • Источники трафика. Если вы не хотите персонализировать опыт для выделенного источника.
  • График публикации блога и новостной рассылки.
  • Вернуть посетителей. Люди могут посетить ваш сайт, подумать о покупке, а затем вернуться через 10 дней, чтобы купить ее.
  • Внешние события. Например, зарплата в середине месяца может повлиять на покупку.

Будьте осторожны с небольшими размерами выборки. Интернет полон тематических исследований, погруженных в нереальную математику. Большинство исследований, если они когда-либо публиковали полные цифры, показало бы, что издатели оценивали варианты тестов на 100 посетителей.

После того, как вы все настроили правильно, не смотрите на результаты теста до его окончания. Это может привести к раннему получению результата из-за «обнаружения тренда». Вы обнаружите, что многие результаты тестов возвращаются к среднему значению.

Регрессия к среднему.

Часто можно замечать, что результаты сильно различаются в первые несколько дней теста. Конечно же, они имеют тенденцию сходиться, поскольку тест продолжается в течение следующих нескольких недель. Вот пример с сайта электронной коммерции:

Пример AB теста
  • Первые пару дней: Голубая линия или вариант № 3 выигрывает – около 16 долларов за посетителя против 12,50 доллара за контроль. Многие люди по ошибке закончили бы тестирование здесь.
  • Через 7 дней: вариант № 3 все еще выигрывает, и относительная разница велика.
  • Через 14 дней: Оранжевая линия или вариант № 4 побеждает!
  • Через 21 день: № 4 все еще выигрывает!

Если бы вы остановили тест менее чем за четыре недели, вы бы сделали ошибочный вывод.

Есть связанная проблема: эффект новизны. Новизна ваших изменений, например, большая синяя кнопка, привлекает больше внимания к вариации.

Остановка A/B-тестов: сколько конверсий мне нужно?

Некоторые эксперты говорят, что вы не должны выполнять несколько тестов одновременно. Некоторые говорят, что все в порядке. В большинстве случаев будет хорошо выполнять несколько одновременных тестов, экстремальные взаимодействия маловероятны.

Если вы не тестируете действительно важные вещи, например, что-то, что влияет на вашу бизнес-модель, будущее компании, преимущества от объема тестирования, вероятно, перевесят шум в ваших данных и случайные ложные срабатывания.

Если существует высокий риск взаимодействия между несколькими тестами, уменьшите количество одновременных тестов и дайте тестам работать дольше для повышения точности.

Как настроить A/B тесты?

После того, как вы получили приоритетный список тестовых идей, пришло время сформировать гипотезу и провести эксперимент. Гипотеза определяет, почему эта проблема возникает. Кроме того, хорошая гипотеза:

  • Поддается проверке. Результат измерим, поэтому его можно проверить.
  • Решает проблему конверсии.
  • Обеспечивает понимание рынка. С четко сформулированной гипотезой, результаты вашего сплит-тестирования дают вам информацию о ваших клиентах, будь то тест «выиграл» или «проиграл».

Крейг Салливан имеет набор гипотез для упрощения процесса:

  • Что мы видели: данные и обратная связь,
  • Мы ожидаем, что изменение вызовет воздействие.
  • Мы будем измерять это с помощью метрика данных.

И продвинутый:

  • Потому что мы видели качественные и количественные данные.
  • Мы ожидаем, что изменение для вызовет воздействие.
  • Мы ожидаем увидеть изменение метрики данных за период.
  • Основания для технических преобразований.
  • Вот заключительная часть: вы можете наконец подумать о выборе инструмента.

Хотя это первое, о чем думают многие, это не самое главное. Стратегия и статистические знания на первом месте.

Тем не менее, есть несколько различий, которые следует иметь в виду. Одна из основных категорий инструментов – это инструменты тестирования на стороне сервера или на стороне клиента.

Серверные инструменты отображают код на уровне сервера. Они отправляют рандомизированную версию страницы зрителю без изменений в браузере посетителя. Инструменты на стороне клиента отправляют ту же страницу, но JavaScript в браузере клиента управляет внешним видом оригинала и его вариантом.

Инструменты тестирования на стороне клиента включают Optimizely, VWO и Adobe Target. Conductrics имеет возможности для обоих, а SiteSpect использует метод на стороне прокси-сервера.

Что все это значит для вас? Если вы хотите сэкономить время заранее или ваша команда невелика или не имеет ресурсов для разработки, клиентские инструменты помогут вам быстрее начать работу. Серверная часть требует ресурсов для разработки, но часто может быть более надежной.

Хотя настройка тестов немного отличается в зависимости от того, какой инструмент вы используете, зачастую это так же просто, как подписаться на ваш любимый инструмент и следовать его инструкциям, например, разместить фрагмент JavaScript на вашем веб-сайте.

Кроме того, вам нужно установить Цели чтобы знать, когда была сделана конверсия. Ваш инструмент тестирования будет отслеживать, когда каждый вариант превращает посетителей в клиентов.

При настройке A/B-тестов пригодятся следующие навыки: HTML, CSS и JavaScript / JQuery, а также навыки проектирования и копирайтинга для создания вариантов. Некоторые инструменты позволяют использовать визуальный редактор, но это ограничивает вашу гибкость и контроль.

Как анализировать результаты A / B-теста?

Хорошо. Вы провели исследование, правильно настроили тест, и он наконец готов. Теперь перейдем к анализу. Это не так просто, как взглянуть на график.

График результатов AB теста

Одна вещь, которую вы всегда должны делать: анализировать результаты своего теста в Google Analytics. Это не просто расширяет ваши возможности анализа; это позволяет вам быть более уверенным в своих данных и принятии решений.

Ваш инструмент тестирования может неправильно записывать сведения. Если у вас нет другого источника для ваших тестовых данных, вы никогда не можете быть уверены в точности результатов. Создайте несколько источников данных.

Что происходит, если нет различий между вариациями?

  1. Ваша гипотеза могла быть верной, но реализация была неправильной.

Допустим, ваше качественное исследование говорит о том, что проблема не опасна. Сколько есть способов, чтобы улучшить восприятие безопасности?

Название игры – итеративное тестирование, поэтому, если вы что-то хотели, попробуйте несколько вариаций.

  1. Даже если в целом не было никакой разницы, вариация может побить контроль в сегменте или двух.

Если вы получили поддержку для постоянных и мобильных посетителей, но не для новых посетителей и пользователей настольных компьютеров, эти сегменты могут взаимно компенсировать друг друга, создавая впечатление, что «никакой разницы» нет. Проанализируйте свой тест по ключевым сегментам, чтобы исследовать эту возможность.

Сегментация данных для A/B-тестов.

Ключ к обучению в A/B-тестировании – сегментирование. Несмотря на то, что B может проиграть A в общих результатах, B может победить A в определенных сегментах: обычный, Facebook, мобильный и т. д.

Сегментация данных

Есть множество сегментов, которые вы можете проанализировать. Оптимально перечисляются следующие:

  • тип браузера;
  • тип источника;
  • мобильный или настольный компьютер или устройство;
  • зарегистрированные и зашедшие посетители;
  • кампания PPC / SEM;
  • географические регионы: город, область, страна);
  • новые против постоянных посетителей;
  • новые и повторные покупатели;
  • опытные пользователи против случайных посетителей;
  • мужчины против женщин;
  • возрастной диапазон;
  • новые и уже представленные лиды;
  • типы планов или уровни программы лояльности;
  • текущие, потенциальные и бывшие подписчики;
  • роли: например, если ваш сайт выполняет роль покупателя и продавца.

По крайней мере, при условии, что у вас достаточный размер выборки, посмотрите на эти сегменты:

  • настольный компьютер против планшета или мобильного телефона;
  • новое относительно старого;
  • трафик, который попадает на страницу, против трафика по внутренним ссылкам.

Убедитесь, что у вас достаточно размера выборки в сегменте. Рассчитайте его заранее, и будьте осторожны, если в данном сегменте меньше 250–350 конверсий за вариацию.

Если ваша обработка показала хорошие результаты для определенного сегмента, пришло время рассмотреть индивидуальный подход для этих пользователей.

Как архивировать пройденные A/B тесты?

A/B-тестирование – это не только выигрыш, проигрыш и тестирование случайных участков. Как сказал Мэтт Гершофф, оптимизация – это «сбор информации для принятия решений». Уроки из статистически достоверных A/B-тестов способствуют достижению больших целей роста и оптимизации.

Умные организации архивируют результаты своих тестов и систематически планируют свой подход к тестированию. Структурированный подход к оптимизации дает больший рост и реже ограничивается локальными максимумами.

Архивирование А/В тестов

Итак, вот сложная часть: нет единого лучшего способа структурировать управление знаниями. Некоторые компании используют сложные встроенные инструменты, другие используют сторонние инструменты; а третьи используют Excel и Trello.

Если это поможет, вот три инструмента, созданных специально для управления проектами оптимизации конверсии:

  • Iridion;
  • effectiveexperiments.com;
  • projects.growthhackers.com.

Важно общаться между департаментами и руководителями. Часто результаты A/B-теста не являются интуитивно понятными для непрофессионала.

Статистика А/В тестирования.

Зачем вам нужно знать статистику? Мэтт Гершофф любит цитировать своего преподавателя математики в колледже: «Как ты можешь делать сыр, если не знаешь, откуда берется молоко?!»

Есть три условия, которые вы должны знать, прежде чем мы погрузимся в подробности статистики A/B-тестирования:

  • Значение. Мы измеряем не все коэффициенты конверсии, а только образец. Среднее является представителем целого.
  • Отклонение. Какова естественная изменчивость населения? Это влияет на наши результаты и то, как мы их используем.
  • Отбор проб. Мы не можем измерить истинный коэффициент конверсии, поэтому мы выбираем образец, который является репрезентативным.

Что такое р-значение?

Многие используют термин «статистическая значимость» неточно. Статистическая значимость сама по себе не является правилом остановки, так что же это такое и почему это важно?

Для начала давайте рассмотрим p-значения, которые также очень неправильно поняты. Как недавно отметил FiveThirtyEight, даже ученые не могут легко объяснить p-значения.

Значение p – это мера доказательств против нулевой гипотезы или контроль, на языке A/B-тестирования. Значение p не говорит нам о вероятности того, что B лучше, чем A.

Точно так же это не говорит нам о вероятности того, что мы допустим ошибку при выборе B вместо A. Это распространенные заблуждения.

Значение p – это вероятность увидеть текущий результат или более экстремальный, учитывая, что нулевая гипотеза верна. Или «Насколько удивителен этот результат?»

Подводя итог, можно сказать, что статистическая значимость или статистически значимый результат достигается, когда значение р меньше уровня значимости, который обычно устанавливается равным 0,05.

Доверительные интервалы и предел погрешности.

Ваш коэффициент конверсии не просто говорит X%. Он говорит что-то вроде X% (+/- Y). Второе число – это доверительный интервал, и он крайне важен для понимания результатов вашего теста.

В A/B-тестировании мы используем доверительные интервалы, чтобы снизить риск ошибок выборки. В этом смысле мы управляем риском, связанным с внедрением нового варианта.

Поэтому, если ваш инструмент говорит что-то вроде: «Мы на 95% уверены, что коэффициент конверсии составляет X% +/- Y%», тогда вам нужно учитывать +/- Y% как предел погрешности.

Насколько вы уверены в своих результатах, во многом зависит от того, насколько велика погрешность. Если два диапазона конверсии перекрываются, вам необходимо продолжить тестирование, чтобы получить действительный результат.

Синусоидальные данные.

Стационарный временной ряд обладает статистическими свойствами: среднее значение, дисперсия, автокорреляция и т. д. Они постоянны во времени. По многим причинам данные веб-сайта не являются стационарными, что означает, что мы не можем делать те же предположения, что и для стационарных данных. Вот несколько причин, по которым данные могут колебаться:

  • время года;
  • день недели;
  • каникулы;
  • позитивные или негативные упоминания в прессе;
  • другие маркетинговые кампании;
  • КПП / SEM;
  • SEO;
  • из уст в уста.

Другие включают загрязнение образца, эффект мерцания, ошибки отслеживания доходов, смещение выбора и многое другое. Об этом следует помнить при планировании и анализе ваших A/B-тестов.

Байесовская или частая статистика.

Байесовское или Frequentist A/B тестирование является еще одной горячей темой. Многие популярные инструменты перестроили свои движки статистики для использования байесовской методологии.

Вот упрощенная разница с точки зрения байесовской вероятности: гипотезе присваивается вероятность. По мнению Frequentist, гипотеза проверяется без присвоения вероятности.

Не поймите меня неправильно, у каждой методологии есть практические последствия для бизнеса. Но если вы новичок в A/B-тестировании, есть гораздо более важные вещи, о которых нужно беспокоиться.

Инструменты и ресурсы A/B-тестирования.

Существует множество инструментов для онлайн-экспериментов. Вот список из 53 инструментов оптимизации конверсий, которые были рассмотрены экспертами. Некоторые из самых популярных инструментов A/B-тестирования включают в себя:

  • Optimizely;
  • ПУО;
  • Adobe Target;
  • Maximyser;
  • Conductrics.

A/B тестирование калькуляторов.

  • AB Test Calculator от CXL;
  • A / B Калькулятор значимости теста на разделение от VWO;
  • A / B Сплит и многовариантный тест продолжительности калькулятора от VWO;
  • Калькулятор размера выборки Эвана Миллера.

Ресурсы статистики A / B-тестирования.

  • Статистика тестирования А/В: простое в понимании руководство;
  • Статистический анализ и A/B тестирование;
  • Понимание статистики A/B тестирования для получения REAL Lift в конверсиях.

Вывод.

A/B тестирование является бесценным ресурсом для любого, кто принимает решения в онлайн-среде. Приложив немного знаний и усердия, вы сможете уменьшить многие риски, с которыми сталкивается большинство начинающих оптимизаторов.

Если вы действительно углубитесь в эту информацию, вы опередите 90% людей, проводящих тесты. Если вы верите в силу A/B-тестирования, это фантастическая возможность для дальнейшего роста доходов.

Знание является ограничивающим фактором, который может превзойти только опыт и итеративное обучение. Так что проходите тестирование!

✓ Что такое A/B/n-тесты?

A/B/n-тесты – это контролируемые эксперименты. Запускают одновременно один или несколько вариантов на исходной странице. Для получения результата сравнивают коэффициенты конверсии среди вариантов на основе одного изменения.

✓ Для чего в A/B-тестировании используются интервалы погрешности?

В A/B-тестировании мы используем доверительные интервалы, чтобы снизить риск ошибок выборки. В этом смысле мы управляем риском, связанным с внедрением нового варианта.

✓ Зачем архивировать результаты А/В тестов?

Структурированный подход к оптимизации и анализу прошлых результатов позволяет получить больший рост и лучшие результаты тестирования.

✓ Что такое р-значение в А/В тестировании?

Значение p – это мера доказательств против нулевой гипотезы (контроль, на языке A/B-тестирования). Значение p не говорит нам о вероятности того, что B лучше, чем A.

✓ Что означает значение P, равное 1?

Когда данные полностью описываются рестриктированной моделью, вероятность получить менее хорошо описанные данные равна 1. Например, если выборочные средние в двух группах идентичны, p-значения t-критерия равны 1.

✓ Как значение P связано с ошибками типа 1 и типа 2?

Например, p-значение 0,01 будет означать, что существует 1% -ная вероятность совершения ошибки типа 1. Однако использование более низкого значения для альфа означает, что вы с меньшей вероятностью обнаружите истинное различие, если оно действительно существует (что создает риск ошибки типа 2).

✓ Что, если значение P равно 0?

1 указывает на отклонение нулевой гипотезы на уровне значимости 5%. 0 указывает на неспособность отклонить нулевую гипотезу на уровне значимости 5%.

Обратный Звонок

Напишите нам