PrintАртем Акулов

Расчет длины выборки для тестирования

Артем Акулов

Чтобы повышать эффективность необходимо проводить исследования. Самый распространенный способ исследования— А/В тестирование (контекстных объявлений, эффективности лендингов, посадочных страниц, отдельных элементов и т.д.).

При проведении тестирования очень важно получить достоверные результаты. Ведь по результатам тестирования должен приниматься или отвергаться объект для тестирования. Самая распространенная  ошибка при проведении тестирования — слишком раннее прекращение теста.

Простой пример. Организовали сплит-тест. Получили 40 кликов и 3 конверсии по странице_1 и 38 кликов и 2 конверсии по странице_2. Уже можно делать выводы, какую страницу объявить победителем или еще нет?

Переформулировать вопрос нужно так: размер выборки для тестирования достаточен для получения достоверных результатов с заданной статистической точностью?

Ниже приведена простая формула расчета длины выборки тестирования для практического применения  (вводные: 95% доверительный интервал, статистическая мощность 80%).

n = (16*p*(1-p))/??,

где ? — минимально обнаруживаемый эффект в %;

p — базовая конверсия

n — итоговое число экспериментов в каждой группе.

Пример расчета длины выборки для сплит-тестирования

Для конверсии (p) в 10%  и обнаружении эффекта в 1% (от 9% до 11%) необходима выборка:

n = (16*0,1*(1-0,1))/0,1? = 14 400 участников.

Формула выше вполне подойдет для повседневной работы.

Калькулятор расчета длины выборки

Если вы хотите получить более точное значение длины выборки или же изменить параметры ширины доверительного интервала, либо статистической мощности, то по ссылке ниже вы найдете небольшой калькулятор по расчету длины выборки.

Онлайн-калькулятор расчета длины выборки

Калькулятор расчета длины выборки

Как пользоваться калькулятором

Прежде всего его вам необходимо скачать файл себе на Google Диск (чтобы появилась возможность внести свои значения).

Некоторые пояснения по калькулятору.

1. Базовая вероятность — текущий уровень конверсии (конверсия страницы_1)

2. Проверяемая вероятность — конверсия на странице_2.

Далее подставляете в соответствующие ячейки свои значения базовой конверсии и проверяемой конверсии. На выходе получаем расчетное значение длины выборки.

Обратите внимание, что расчетная длина выборки — длина выборки одной группы, это значит, что для проверки 2 страниц, необходимо размер выборки умножить на 2.

  • С А/Б тестами все понятно, а проводите ли ва А/А тесты перед началом А/Б тестирования?

    • Дмитрий, что вы понимаете под А/А тестом? Получение базового значения конверсии?

      • Ну, предположим, мы тестируем новый вариант лендинга, Перед тем как проводить А/Б тест, проводим тест А/А тест с 2 одинаковыми старыми версиями и если результаты сильно разные, то проводить А/Б тест не имеет смысла, ибо результаты будут недостоверными.

        • Если говорить о статистике в чистом виде, то есть формулы для расчета базовой конверсии. Т.е. по сути сколько нужно провести тестов, чтобы с достаточной достоверностью можно было принять значение конверсии за базовое (А-значение). Насколько, я понимаю, проведение А/А теста именно для этого и необходимо.

        • Ann Blanter

          Мы проводим А/А тестирование одновременно с А/Б тестированием, чтобы исключить влияние фактора сезонности

  • Таня

    Добрый день! Подскажите, пожалуйста, n рассчитывается только для исходного варианта страницы? У меня заданы данные для теста, который уже проводился 7 дней. Я рассчитала показатель n для каждого из вариантов. В результате для А у меня получилось, что требуется 92 дня, для Б – 16 дней. Значит ли это, что через 16 дней уже можно делать какие-то выводы? Или всё-таки что-то я сделала не так? Спасибо.

    • Таня, добрый день. Не совсем понял, почему у вас такая разница в количестве дней между вариантами. Размер выборки должен быть одинаковый, а значит и количество дней должно быть одинаковым (трафик нужно распределять между вариантами равномерно).

      По теме есть хорошая статья, там есть распространенные ошибки при тестировании.
      http://siliconrus.com/2015/04/a-b-tests/

      • Таня

        Мне нужно было решить задачу, в которой заданы недельные результаты тестирования для двух вариантов страниц. Соответственно, я опираясь на эти результаты для каждой из страниц рассчитала выборку по формуле и она получилась такой вот разной. Вот и хочу понять, что-то не так сделала, или как всё-таки интерпретировать такой результат?

        • Очевидно, есть ошибка, потому что должен быть одинаковый размер выборки для каждого из вариантов. Так же очень нежелательно проводить тесты не одновременно, одна неделя один вариант, вторая — другой, т.к. это сильно влияет на результаты тестирования.

          • Таня

            Рискуя выглядеть глупо, я всё-таки хочу разобраться до конца. Данные по тестам, которые проводились одновременно в течение недели (данные за каждый из семи дней). Кол-во пользователей примерно одинаковое. Но конверсия в исходном варианте колебалась в пределах 4,7% и 4,9%, во втором случае в пределах 4,8% и 5,2%. Таким образом, отклонение во втором случае больше. Базовая конверсия в первом случае тоже чуть меньше (4,8% – А, 4,9% – Б). И вот при подставлении данных в формулу, получаю в первом случае необходимое количество испытаний – почти 2 млн, во втором – около 340 тыс. Ну и отсюда та разница в днях. Пересчитала еще раз по-новому – тоже самое.

  • Антон

    Скажите пожалуйста, окупается ли использование коллтрекинга? Если при этом расходы на директ порядка 50-60 тысяч в месяц, есть смысл заморачиваться и подключать динамический коллтрекинг?

  • Петр Фальковский

    Как пользоваться калькулятором не понятно, может есть инструкция?

    • В конце статьи написано — подставляете свои значения базовой и проверяемой конверсий, формула рассчитывает необходимую длину выборки.

  • smth

    Здравствуйте! почему ? в примере равна 0,1?

    • Это достаточное в большинстве случаев значение минимально обнаруживаемого эффекта от сравнения вариантов.

  • privet

    Не очень понятно, откуда у вас в формуле определения объема выборки 16. Можете, пожалуйста, пояснить?

  • Иван Шибаев

    Извиняюсь за глупый вопрос, а что такое Проверяемая вероятность ?) как ее высчитать мы же не знаем конверсию тестируемого варианта?

    • Иван, на практике задача формулируется несколько иначе. Сначала запускается тестирование, а затем рассчитывается насколько результаты теста достоверны в конкретный момент. Например, прошло 1000 экспериментов. Накопилась статистика по конверсии для разных вариантов. Вопрос: когда останавливать тест, достоверны ли уже результаты или необходимо продолжать эксперименты → увеличить длину выборки.

  • Kemi Kenta

    Добрый день!
    А откуда в формуле взялось число 16?