Определите, есть ли у вас проблемы с качеством данных

Лица, принимающие решения, руководители, специалисты по работе с данными и менеджеры часто должны быстро оценить, можно ли доверять набору данных, можно ли включить их в анализ или они нужны для нового направления. Хотя существуют тысячи вариантов, их основной вопрос звучит так: "Есть ли у меня проблема с качеством данных?"

Я создал простой метод, который помогает любому ответить на этот вопрос. Я называю его "пятничным послеобеденным измерением" (FAM), и он предназначен для менеджеров любого уровня, чья работа зависит от данных. (На самом деле, FAM - это хорошее упражнение, которое необходимо знать, если вы надеетесь стать тем, кого я называю провокатором данных). Метод поможет вам легко измерить текущий уровень качества данных, разработать высокоуровневую оценку его влияния и синтезировать результаты. Он универсален, то есть хорошо адаптируется к различным компаниям, процессам и наборам данных. Чтобы следовать его методологии, выполните следующие четыре шага.

Шаг 1. Соберите последние 100 записей данных, которые использовала или создала ваша группа. Например, если ваша группа принимает заказы клиентов, соберите последние 100 заказов; если вы создаете инженерные чертежи, соберите последние 100 чертежей. Затем сосредоточьтесь на 10-15 критических элементах данных (или атрибутах) в записи данных. Разместите их в электронной таблице или на больших листах бумаги.

Шаг 2. Попросите двух или трех человек, знакомых с данными, присоединиться к вам на двухчасовую встречу. (Свое название FAM получила потому, что многие назначают такие встречи на вторую половину дня в пятницу, когда темп работы снижается.)

Шаг 3. Работая с записью за записью, попросите коллег отметить очевидные ошибки заметным цветом, например, красным или оранжевым. Для большинства записей этот процесс пройдет невероятно быстро. Члены вашей команды либо заметят ошибки - неправильно написанное имя клиента или информацию, помещенную не в ту колонку, - либо не заметят. В некоторых случаях вы будете подробно обсуждать, действительно ли тот или иной элемент неверен, но обычно вы тратите не более 30 секунд на одну запись.

Шаг 4. Подведите итоги. Во-первых, добавьте в электронную таблицу колонку "запись идеальна или нет". Пометьте его "да", если в записи нет ошибок, и "нет", если в записи появился красный или оранжевый цвет. Подсчитайте количество идеальных записей. У вас получится таблица, похожая на рисунок ниже.

W160720_REDMAN_FRIDAYAFTERNOON

Интерпретируйте "количество идеальных записей" следующим образом: Из последних 100 записей данных, выполненных нашей группой, мы правильно выполнили только две трети - 67 из 100. Почти все признают, что это действительно плохая работа. (В качестве примечания: я часто использую это упражнение при обучении и консультировании, и я видел много худших результатов и несколько лучших. Качество данных в 67% находится на высокой границе типичного результата.)

Этот вывод подтверждает, что у вас есть проблема с качеством данных. Чтобы понять, как это влияет на ваш бизнес, сделайте еще один шаг вперед. Плохие данные приводят к разного рода неприятностям - принятие правильных решений затрудняется, клиенты возмущаются - и это увеличивает расходы. Так называемое "правило 10" дает простой способ оценить эти затраты. Оно основано на наблюдении, что "выполнение единицы работы при дефектных исходных данных обходится в 10 раз дороже, чем при идеальных"

Так, в приведенном выше примере человек, использующий данные, сможет сделать это без дополнительных усилий две трети времени, но одна треть времени будет стоить примерно в 10 раз дороже, чтобы внести исправления и завершить работу. В качестве простого примера предположим, что ваша рабочая группа должна выполнить 100 единиц продукции в день, и каждая единица стоит $1,00, когда данные идеальны. Если все идеально, то день работы стоит $100 (100 единиц по $1,00 каждая). Но если идеальны только 67 единиц:

Общие затраты = (67 x $1,00) + (33 x $1,00 x 10) = $67 + $330 = $397

Как видите, общие затраты почти в четыре раза больше, чем если бы данные были в полном порядке. Считайте эту разницу стоимостью низкого качества данных. Большинство компаний не могут и не должны мириться с такими расходами.

Теперь, когда вы знаете, что у вас есть проблема с данными, и знаете связанные с ней расходы, вы, возможно, захотите внести некоторые реальные улучшения! В электронной таблице указано, в каких атрибутах есть ошибки, и, изучив эти данные, вы сможете понять, какие атрибуты нужно исправить в первую очередь. Подсчитайте количество ошибок в каждом столбце и сосредоточьтесь на двух-трех атрибутах, имеющих наибольшее количество ошибок. Найдите и устраните их первопричины. В большинстве случаев следует ожидать, что те, кто отвечает за создание данных (ваша команда или другая, в зависимости от выбранных вами данных), сделают эти улучшения в рамках своей повседневной работы, практически без капиталовложений. Зато вы увидите, как уменьшится количество ошибок и значительно снизятся связанные с ними затраты.

Каждый должен сделать качество данных частью своей работы, и это упражнение предоставляет один из простых способов сделать шаги к улучшению. Этот процесс не предназначен для одноразового выполнения - вы можете регулярно выполнять FAM для оценки качества данных. Уделяя время FAM, вы сможете не только определить есть ли у вас проблемы с качеством данных, но и знать где направить свои усилия на их решение.

Об авторе

Томас К. Редман, "дока данных", является президентом компании Data Quality Solutions. Он помогает компаниям и людям, включая стартапы, транснациональные корпорации, руководителей и лидеров всех уровней, наметить свой курс к будущему, основанному на данных. Он уделяет особое внимание качеству, аналитике и организационным возможностям.

Рубрика: 
Ключевые слова: 
Автор: 
Источник: 
  • Hbr.org
Перевод: 
  • Дмитрий Л

Поделиться