Чтобы результаты исследования имели вес, недостаточно просто набрать случайных людей на улице. Важно понимать, какая выборка считается репрезентативной и какие требования к ней предъявляются. Главный критерий репрезентативности — это математически обоснованное сходство структуры респондентов со структурой всей аудитории продукта. Ниже мы расскажем про основные термины подробнее.
Генеральная совокупность и рамка выборкиЛюбой анализ начинается с определения базовых понятий. Генеральная совокупность — это вообще все люди, которых касается исследование (например, все жители Москвы или все B2B-клиенты рекламного агентства). Рамка выборки — это конкретный список контактов, из которого мы будем получать респондентов (база email-адресов, номера телефонов из CRM и т.д.). Без корректно определенной совокупности и качественной рамки добиться успеха невозможно. Если в CRM-базе нет email-адресов самых крупных клиентов, данные будут искажены изначально.
Случайность отбора и отсутствие систематического смещенияМногие задаются вопросом: что значит репрезентативная выборка с точки зрения математики? В идеальном мире это означает, что каждый человек из генеральной совокупности имеет строго одинаковый шанс попасть в итоговый список для опроса. Это защищает исследование от систематического смещения.
Систематическое смещение — это сценарий, возникающий, когда мы идем по пути наименьшего сопротивления:
- искажаем канал: опрашиваем только подписчиков в соцсетях, игнорируя тех, кто покупает офлайн.
- некорректно формулируем приглашения: используем кликбейтные заголовки, привлекающие только определенный тип людей.
- выбираем «удобных» респондентов: звоним только лояльным клиентам, избегая тех, кто ранее оставлял негативный опыт или жаловался.
Объем выборки и допустимая погрешностьДаже если пропорции соблюдены идеально, опрос 10 человек не даст объективной картины. В статистике репрезентативная выборка — это не только правильная структура, но и достаточный объем респондентов, обеспечивающий статистическую надежность.
Здесь в игру вступают такие параметры, как стандартная ошибка и доверительный интервал. Чем больше человек будет опрошено, тем ниже должна получиться погрешность. Стоит учесть, что эта зависимость не линейна: чтобы снизить погрешность с 5% до 2%, объем респондентов нужно увеличить не в 2, а почти в 4 раза.