Остерегайтесь легких ответов больших данных

Расцвет мощного и простого в использовании программного обеспечения (например, ПО как услуга) и аналитических языков программирования (например, R) сделал возможным для людей во всей организации, а не только для троллей баз данных, задавать вопросы о производительности бизнеса. Внезапно каждый может увидеть практически все, что касается бизнеса.

Такая прозрачность позволяет большему количеству людей участвовать в решении важных бизнес-проблем, что повышает вероятность успеха. Но есть и один существенный недостаток: Если вы получили ответ, даже "значительный", это еще не значит, что вы получили настоящий или важный ответ.

Многие называют это "эффектом кнопки": Призрак в машине каждый раз дает правильный ответ, и мне не нужно об этом думать. В грязном реальном мире, однако, есть некоторые знания, которыми вы должны обладать, чтобы вы могли интерпретировать предложение кнопки.

При анализе больших данных вам нужно знать, среди прочего, о "распределениях данных".

Многие статистические тесты - и почти все, которые преподаются на курсах статистики - требуют, чтобы данные, к которым применяется тест, были "нормально распределены".Существует математическое описание такого распределения, но все знают его как "колоколообразную кривую", где число наблюдений откладывается по оси y; высшая точка - среднее значение, распределение абсолютно симметрично по обе стороны от среднего, и число наблюдений довольно быстро убывает по обе стороны от среднего. В результате такой структуры 66% всех наблюдений лежат в пределах одного стандартного отклонения выше и ниже среднего, а 95% - в пределах 2 стандартных отклонений выше и ниже среднего. Эти факты позволяют нам с помощью простой математики определить, отличаются ли две группы по некоторому набору показателей в "значительной" степени. Много слов. Ключевой элемент заключается в том, что большинство из нас хотят знать ответ на такой вопрос, как "растут ли продажи за месяц?" или "проводят ли люди больше времени на нашем новом сайте, чем на старом?"

Для ответа на эти вопросы часто используется простой статистический тест, называемый "z-тестом".Детали не имеют значения, важно лишь понимать, что z-тест зависит от нормального распределения и, более конкретно, от симметричных значений стандартного отклонения.

Давайте рассмотрим пример того, как статистику могут испортить ненормальные распределения: Являются ли мужчины более высокими, чем женщины? В США при среднем росте около 5 см™10 см мужчины выше женщин примерно на 9%, поэтому ответ должен быть положительным. Я решил подтвердить эту статистику, измерив рост примерно 20 женщин в моей компании и сравнив их с аналогичным количеством мужчин. Как и ожидалось, статистика показала, что мужчины выше. Затем я притворилась, что нанимаю еще одного мужчину: Дилана Постла, профессионального борца ростом около 4,5 футов. После добавления бессмертного Хорнсвоггла статистика показала, что мужчины и женщины одинакового роста. Упс. Затем я "нанял" Сэнди Аллен, женщину ростом 7,5 футов. Теперь статистика показывает, что женщины значительно выше мужчин. Что случилось? Добавление Дилана и Сэнди было "выбросами", значениями, которые не должны существовать в нормальном распределении. Простые тесты, которые я использовал, очень чувствительны к отклонениям, что делает неправильные результаты довольно распространенным явлением.

Сказать, что Дилан и Сэнди - отклонения, довольно легко, потому что мы все десятилетиями наблюдаем, какого роста люди вокруг нас. Однако со многими другими статистическими данными, на которые мы полагаемся, дело обстоит иначе. Крупные вопросы государственной политики обсуждаются с помощью статистики; если статистические данные могут быть настолько неверными в отношении такого пустяка, как рост, то они могут быть неверными, скажем, в отношении реформы здравоохранения или контроля над оружием. Аналогичная проблема возникает и в бизнесе.

Проводите A/B-тест, сравнивая, нравится ли людям новый дизайн продукта больше, чем старый? Человек, который проводит этот тест, может представить средние оценки для каждого дизайна, показывающие, что средняя оценка B значительно выше, чем A. Все готово, верно? Ну, "среднее" обычно подразумевает тестирование на основе средних. Рейтинги - это порядковые числа, которые не имеют средних или симметричных стандартных отклонений. Как они могут быть? По шкале от 1 до 5, 4 не в два раза больше 2. Таким образом, "значимая разница" - это не "значимая разница". Ага, то число, которое вы используете для реформирования всего ассортимента продукции? Оно может быть правильным. Оно также может быть случайным.

Я не пытаюсь сказать, что средние и стандартные отклонения бесполезны. Однако есть знания, которые необходимо знать пользователям мощных кнопок больших данных, чтобы понять результат. Некоторые из этих знаний просты, хотя часто игнорируются даже исследователями. Другие части знаний - это искусство, которое приобретается только через опыт.

Несмотря на это, самое главное, при всем уважении к Льюису Кэрроллу, следующее: Берегись кнопки, сын мой, предположений, которые кусаются, выводов, которые ловятся!

Об авторе

Дуглас Меррилл - генеральный директор и основатель ZestFinance, технологической компании по оказанию финансовых услуг, расположенной в Лос-Анджелесе. Ранее он был ИТ-директором и вице-президентом по инженерным вопросам в компании Google.

Рубрика: 
Ключевые слова: 
Автор: 
Источник: 
  • Hbr.org
Перевод: 
  • Дмитрий Л

Поделиться