Поддержи Openmeetings

вторник, 13 мая 2014 г.

Big Data: от маркетинга к конкретике

Big Data — это модный тренд, о котором вот уже три года говорят и пишут все крупнейшие вендоры ПО и международные аналитические агентства. Однако для широкого круга российских ИТ–специалистов Big Data по–прежнему окружен мистической завесой. Практики ИТ и бизнеса в сомнении хмурят брови над рекламными проспектами по Big Data, считая всё это если не профанацией, то каким–то новым соусом, под которым предлагаются решения BI. В этой статье я постараюсь без лишних громких слов и отсылок к Gartner разобраться с понятием Big Data и теми особенностями, которые отличают эту технологию от любой другой.

Что такое Big Data?

Собственно Big Data — это не одна, а множество технологий по работе с информацией, обладающей следующими свойствами:

  • Значительный объём данных. Говоря про Big Data, имеют в виду работу с объёмом от 30–50 Тбайт. Впрочем, подобный объём данных на уровне предприятия уже никого не удивляет.
  • Большое количество источников информации. Если в традиционном BI количество источников можно пересчитать по пальцам и большинство из них являются внутренними, то Big Data может иметь дело с десятками, если не тысячами, внешних источников.
  • Неструктурированная информация. Реляционные базы данных, а в дальнейшем хранилища, построенные, в общем–то, тоже на реляционной теории, дали нам отличный инструмент для поиска среди структурированной информации. Но что делать с информацией, для которой у нас нет специальных полочек? Можно, конечно, каждый раз создавать новую «полочку», чем и занимаются специалисты по поддержке систем BI. Однако подход Big Data предлагает принципиально иное решение: поиск на основе паттернов, что в свою очередь предусматривает отличную от реляционной структуру хранения информации.
  • Быстроменяющаяся информация. Хранить все, пусть даже отфильтрованные на входе данные, становится всё дороже, ведь технологии хранения дешевеют медленнее, чем появляются новые источники данных. В связи с этим на уровне предприятия нужно чётко определить, сколько времени должны храниться те или иные данные. Какие–то данные могут быть востребованы в организации на протяжении многих лет, а другие станут бесполезными уже через пару часов, когда аналитики возьмут из них всё, что нужно.

Таким образом, Big Data решает сходные задачи с традиционными инструментами BI, только в более широком контексте в части объёма, источников, структуры и распределения данных. В результате Big Data и BI серьёзно отличаются на технологическом уровне.

Характеристика Традиционный BI Big Data
Инфраструктура хранения Единое корпоративное Хранилище Хранилище может находиться в распределённой файловой системе
Процессинг Формат данных приводится под требования функций процессинга Функции процессинга адаптируются под различные форматы данных
Формат данных Форматы данных структурированы Предусматривается работа как со структурированной, так и с неструктурированной информацией
Временной акцент Историческая информация Работа с максимально свежими данными
Процедуры Извлечение, передача и обработка данных происходят преимущественно последовательно, в соответствии с чётко определёнными процедурами Применяется массовая параллельная обработка данных (Massively Parallel Processing — MPP)

Каковы возможные области применения Big Data?

Рассмотрим некоторые из возможных сценариев применения Big Data.

Электронный архив

Если организация имеет дело с большим количеством слабоструктурированной информации, например, архивом электронных документов и если у неё есть потребность в быстром поиске по содержанию документов, то для эффективного решения этой проблемы можно использовать СУБД NoSQL, которая является составляющей технологией Big Data. Базы данных NoSQL отличаются от традиционных реляционных СУБД тем, что не требуют от данных соответствия чёткой табличной схеме и предусматривают работу с различными типами структур. В результате применения базы данных NoSQL в электронном архиве можно обеспечить, с одной стороны, необходимую аналитику для работы с документами, а с другой — хороший уровень сжатия, что позволит сэкономить на ресурсах хранения.

Распределённый мониторинг

В условиях географически распределённой инфраструктуры часть функций анализа целесообразно проводить локально. В этом случае может применяться схема MapReduce, реализованная в продукте Hadoop.

Система рекомендаций

С помощью технологий Big Data можно построить систему автоматических рекомендаций для клиентов торговой сети. Подобная система рекомендации может работать с различными видами внешних и внутренних источников, включая данные о предыдущих покупках, поисковые запросы, данные из торговых сетей партнёров и социальных сетей.

Подобное решение можно построить на продуктах Hbase и Hive от Apache, что даст хорошую производительность с возможностью масштабирования.Систему рекомендаций можно усилить за счёт машинного обучения, реализацию которого может обеспечить статистический язык программирования R.

Подозрительное поведение

Задача по выявлению подозрительного поведения субъектов — отклонения от норм — является одной из базовых в теории Data Mining. Технологии Big Data могут существенно расширить область анализа за счёт использования большего количества источников и форматов входящей информации. В частности, при работе с большими наборами данных может применяться технология Pig, разработанная Yahoo. Pig преобразует произвольные пользовательские запросы в набор параллельных заданий и управляет ими в кластере.

Какие вопросы должны быть решены при внедрении Big Data?

Внедрение Big Data сопряжено с решением множества вопросов, и самый главный из них заключается в том, по какому принципу организация будет выделять нужные ей данные из информационного потока — решение проблемы входящей фильтрации. Следует отметить, что при работе с масштабом Big Data 90% входных данных будут мусором, не имеющим отношения к делу.

Другой немаловажный аспект при внедрении Big Data — соблюдение требований к безопасности и конфиденциальности информации. Данный вопрос особенно важен при использовании кластеров и облачных технологий, без которых Big Data не даст должного эффекта.

Следующий момент: в отличие от традиционного BI объемы, на которых работает Big Data, заставляют не только накапливать, но и удалять ненужные данные, освобождая драгоценное место для новых данных. При бесконтрольном накоплении экономическая эффективность решения Big Data теряется.

Ну и, конечно, кадры. Технологии Big Data являются достаточно новыми, и на рынке труда пока немного профессионалов, обладающих необходимой квалификацией. Ситуация усугубляется ещё и тем, что инструменты Big Data требуют глубокого погружения и их нельзя назвать дружественными по отношению к пользователю. Впрочем, всё это проблемы любой новой технологии.

Следующая моя статья будет посвящена архитектуре систем Big Data

В статье использованы материалы из:

  • Nitin Sawant, Himanshu Shan — Big Data Application Architecture Q&A, Apress, 2013
  • Appache.org

Комментариев нет :

Отправить комментарий