Последние 2-3 года в России одним из ведущих трендов в области информационных технологий стали Большие Данные – Big Data.
Обработка больших данных позволяет определить ключевые точки взаимоотношений с клиентами и улучшить обслуживание клиентов, внедрять новые услуги, востребованные клиентами и сигнализировать бизнесу, если что-то идет не так.
Компетенции компаний в области больших данных уже сейчас являются конкурентным преимуществом, и часть этого преимущества — наличие в компаниях грамотных специалистов, которые способны работать с Big Data.
Data Analyst, Data Scientist, Data Architect — на рынке значительный дефицит этих специалистов. Это создает серьезную конкуренцию за квалифицированного специалиста по Big Data. В то же время оценка кандидатов требует тщательной экспертизы.
Наш портал попросил специалистов рекрутмента и технологических экспертов компаний, в которых открыты вакансии специалистов по Большим Данным, поделиться опытом в оценке и подборе экспертов Big Data, начав эту новую для многих медийных компаний тему с «простых» вопросов.
Для каждой сферы деятельности понятие «Большие данные» имеет свое определение. Для технических специалистов Big Data это, скорее, размер данных для анализа, совокупность методов доступа, технологий манипулирования данными, способов их хранения, различные аналитические инструменты. Для бизнеса Big Data — это возможность стать «умными» — анализировать жизненный цикл своих клиентов, данные, которые клиенты генерируют в процессе своей деятельность, прогнозировать развитие бизнеса, повышать свою клиентоориентированность. В обоих случаях, имеет смысл говорить о том, что собранные данные будут отвечать следующим характеристикам:
— Объем данных. С точки зрения статистики обработка большого объема разносторонних данных дает гораздо более точный результат, чем те же самые действия, но с малым объемом данных. Особенно хорошо это работает в таких сферах как психология и социология.
— Многообразие данных, возможность собирать и обрабатывать данные, касающиеся различных аспектов деятельности, что позволяет с разных сторон посмотреть на те или иные события и действия, выполняемые нами или касающиеся нас.
— Достоверность данных. Способность отделить недостоверные данные от тех, что представляют собой ценность для обработки и извлечению из сырых данных знаний.
— И самое важное, как мне думается, ценность накопленных данных, возможность конвертировать их в полезное знание и денежные знаки.
Если говорить именно про технологии/инструменты анализа данных, то все зависит от того, сколько денег в инфраструктуру готовы вложить потенциальные владельцы больших данных.
Можно пойти двумя путями:
— первый путь — Enterprise, когда компания использует для сбора и анализа данных инструменты таких корпоративных монстров, как IBM, Oracle, Teradata, SAS, SAP, Microsoft, Informatica. Это дорого, красиво, престижно и даже порой по делу и работает.
— второй путь — Open-source, кстати, корпоративные монстры порой им не гнушаются – использование таких технологий как Hadoop, Apache Spark, Apache Storm и пр.
Что касается технологий анализа, в настоящий момент сформировалось несколько направлений в области изучения данных, которые показывают хорошие результаты в анализе:
— Data mining – инструменты анализа, позволяющие предсказать поведенческую модель исследуемых объектов, определить особенности объектов, их восприимчивость к различного рода раздражителям. Сюда:
— Генетические алгоритмы – возможные решения представляются в виде «хромосом», которые могут комбинироваться и мутировать.
— Машинное обучение – основное направление – создание самообучающихся алгоритмов на основе анализа эмпирических данных.
— Обработка естественных языков – обработка естественных языков, на которых говорят люди с помощью методов математической лингвистики.
— Предикативное моделирование – создание математической модели заранее определенного вероятного сценария развития событий. Наиболее часто используемая методика, которую любят операторы связи, позволяющая предсказать условия, которые подтолкнут абонента на смену оператора.
Рынок Big Data специалистов делится по этим сегментам. Есть потребности в инженерах, способных создать инфраструктуру для больших данных, потребности в разработчиках программного обеспечения для сбора и обработки данных, потребности в аналитиках, способных формировать требования для обработки и данных и, зачастую, определять алгоритмы их обработки. Ну и, конечно, специалисты, которые должны уметь воспользоваться этими данными – представители бизнеса.
Я могу говорить только о найме технических специалистов и аналитиков. В зависимости от их специализации задаю разные вопросы, касающиеся их квалификации именно в той сфере, где они специализируются.
Инженеры и разработчики должны понимать, как строить гибкие, масштабируемые, управляемые системы, способные выдержать большие нагрузки, большие объемы данных.
С аналитиками – в первую очередь смотрю, есть ли серьезное математическое образование, знание статистики, теории вероятности, графов и многого другого, без чего сложный анализ данных не возможен. Выясняю, способен ли вообще аналитик применять эти знания на практике.
Ну и, конечно, что касается всех специализаций – важен их опыт, в каких проектах участвовали, какие успешно завершили, как их деятельность сказалась на бизнесе их компаний. В целом – обычные вопросы на собеседовании для экспертов в какой-либо области.