"Большие данные" - это самое популярное сленговое выражение, которое можно услышать в наши дни, и я верю в то, что оно изменит весь мир. Многие утверждают, что "большие данные" превосходят по своему размеру Интернет. Одно ясно точно - "большие данные" меняют человеческие жизни. Тем не менее, сам термин довольно расплывчат и, на самом деле, выбран не совсем удачно. В этой статье я расскажу о том, что кроется за модными словами, без лишней рекламы и пропаганды.
В общем и целом, термин "большие данные" относится к большим объемам информации, создаваемым в современном мире. Необходимость обрабатывать растущие объемы данных неизбежно меняет наше восприятие мира и вещей, из которых он состоит. Новые возможности позволяют расшифровывать человеческую ДНК в течение нескольких минут, находит лекарства от рака, точно предсказывать поведение людей, отражать атаки террористов, делать верные маркетинговые акценты и предотвращать катастрофы. Рассмотрим конкретный пример: компания Walmart может взять ваш список предыдущих покупок и товаров, которые имеются в наличии на складе, определить ваше местоположение, запросить прогноз погоды для нужного региона, проанализировать все это за несколько секунд и выслать вам рекламу средства для чистки мангалов, но только если вы ранее купили у них мангал, на улице светит солнце, а вы находитесь в радиусе 5 километров от магазина Walmart, где имеется запас бутылок с чистящим средством. Звучит не слишком радужно, но не стоит паниковать. Для начала давайте посмотрим, откуда берутся огромные объемы данных.
В презентациях и семинарах по "большим данным" я рассказываю об "информатизации мира". Информатизация происходит по целому ряду причин, включая появление социальных сетей, электронных книг, музыки и видео, более активное пользование Интернетом и снижение цен на сенсоры, которые позволяют измерять и отслеживать все на свете. Только подумайте:
- Когда вы раньше читали книгу, вы не создавали дополнительных данных. Теперь же для чтения используются специальные устройства, которые запоминают, что, где и когда вы читали, вычисляют скорость чтения и т.д.
- Когда вы раньше слушали музыку, вы не создавали дополнительных данных. Теперь же для прослушивания используются цифровые плееры, которые запоминают, что, где и когда вы слушали, порядок треков и т.д.
- В наши дни у многих есть смартфоны, которые постоянно собирают информацию о местоположении и скорости перемещения владельцев, а также запоминают все поступающие и исходящие звонки и сообщения.
- В различных устройствах все чаще используются сенсоры, измеряющие различные показатели - например, температуру и объемы потребляемой энергии, направление течения в океане или потока транспорта, количество производимого мусора или пульс. Сенсоры есть в наших автомобилях, часах, холодильниках и т.д. Взять хотя бы, к примеру, мои новые весы. Они оценивают не только вес, процент жира и сердечный ритм, но и качество воздуха в комнате. Когда я наступаю на весы, они автоматически меня "узнают", снимают показания и посылают через Bluetooth на iPhone, который собирает статистику и фиксирует изменения. Информация с весов синхронизируется с информацией, получаемой от шагомера, который определяет, сколько калорий я потратил и сколько часов спал.
- В дополнение к этому пользователи ежедневно совершают миллиарды поисковых запросов, обновляют миллионы статусов, пишут посты в блогах, оставляют комментарии и отметки "Нравится" на Facebook, размещают более 400 миллионов сообщений в Twitter и более 72 часов видео на Youtube.
Уверен, вы поняли суть. Объемы данных растут с угрожающей скоростью. Председатель совета директоров Google Эрик Шмидт утверждает: "С момента возникновения цивилизации до 2003 года человечество создало 5 эксабайтов данных. Теперь мы создаем 5 эксбайтов за два дня, и скорость лишь увеличивается".
Помимо увеличения количества появляются новые типы информации: текст, видео, логи поисковых запросов, показания сенсоров, сведения о финансовых операциях и платежах по кредитным картам и т.д. "Большие данные" обладают четырьмя основными характеристиками:
- Объем - количество данных, создаваемых каждую секунду.
- Оборачиваемость - скорость создания и передвижения данных (хорошим примером проверки в реальном времени может служить выявление махинаций с кредитными картами).
- Разнообразие - большое количество различных типов данных (финансовые отчеты, посты в социальных сетях, фотографии, показания сенсоров, видео и звук).
- Точность - степень упорядоченности данных (только представьте себе сообщение из Twitter с хэштегами, аббревиатурами, опечатками и разговорным сленгом).
Итак, у нас есть огромные объемы данных разного формата и качества. Почему же они должны изменить наш мир? Дело в том, что теперь у нас есть технология, позволяющая собирать и анализировать окружающую нас информацию вне зависимости от объема.
Раньше мы использовали стандартные базы и инструменты, которые не могли справиться с большим количеством неоднородных, неструктурированных и быстро изменяющихся данных. Не вдаваясь в подробности слишком сильно, скажу, что устаревшие технологии уступили место другим, более продвинутым - например, Hadoop. Обработка осуществляется с помощью нескольких компьютеров (аналогично тому, как Google распределяет задачи по поиску информации). Как следствие, многие компании могут свести воедино разрозненные и прежде недоступные источники информации, чтобы добиться впечатляющих результатов. Рассмотрим процесс работы с "большими данными" на конкретных примерах:
- ФБР анализирует информацию из социальных сетей, телефонные звонки и видео с камер наблюдения, чтобы выслеживать преступников и предотвращать атаки террористов.
- Facebook использует систему распознавания лиц, чтобы сравнивать загружаемые вами фотографии с фотографиями других пользователей и таким образом находить ваших друзей.
- Политики анализируют информацию из социальных сетей, чтобы определить регионы для проведения масштабных предвыборных кампаний.
- Анализ данных с сенсоров и записей футбольных и бейсбольных матчей позволяют командам улучшить навыки игры. К примеру, существуют мячи с 200 сенсорами, способные определять силу удара, направление движения и т.д.
- Исполнители вроде Леди Гаги изучают музыкальные предпочтения аудитории и определяют, какие песни необходимо исполнять на живых выступлениях.
- Беспилотный автомобиль от Google в реальном времени анализирует данные, полученные от сенсоров и камер, обеспечивая безопасность на дороге.
- Данные GPS с мобильных телефонов помогают формировать актуальные карты пробок.
- Некоторые компании анализируют эмоциональную окраску высказываний в постах на Facebook, чтобы предсказывать объемы продаж и определять значимость брендов.
- Супермаркеты анализируют данные с карт постоянных покупателей и информацию из социальных сетей, чтобы предсказывать поведение клиентов и влиять на них. Например, по покупкам можно вычислить беременную женщину и выслать ей рекламу детских товаров.
- Больничные отделения, которые оказывают помощь недоношенным и больным младенцам в буквальном смысле анализируют каждый их вздох. Это помогает выявить определенные закономерности - например, заподозрить инфекцию за 24 часа до появления симптомов и начать заблаговременное лечение.
Приведенные примеры - это лишь верхушка айсберга. Многие компании всерьез настроены на активное использование "больших данных". Иными словами, "большие данные" рано или поздно изменят наш мир. С точки зрения языка мне очень нравятся термины "информатизация" мира, когда речь идет об увеличении объемов данных, и "масштабная аналитика" (или просто "аналитика", т.к. то, что сейчас кажется нам масштабным, завтра будет считаться привычным), когда речь идет об анализе и использовании "больших данных".
В настоящее время я предоставляют консультации компаниям, желающим воспользоваться потенциалом "больших данных" и узнать о возможных подводных камнях. Я работаю с руководителями, помогая им выработать стратегии по применению новых технологий, и каждая встреча с такими клиентами кажется мне удивительно продуктивной. Именно поэтому я хотел бы услышать ваши комментарии. Какие возможности открываются для вашего бизнеса с появлением "больших данных"? Пугают ли они вас? А может быть, увлекают? Есть ли у вас опыт работы с "большими данными"? А может, мне не удалось вас убедить, и вы по-прежнему думаете, что это ложная шумиха? Пожалуйста, выскажите свое мнение!
- Linkedin.com
Поделиться