Big Data: основы работы с большими массивами данных
 

Big Data: основы работы с большими массивами данных

Предпосылки появления науки о больших данных. Характеристики данных и типы анализа. Основные понятия теории машинного обучения. Основы работы в Hadoop и NoSQL. Знакомство на практике с машинным обучением и технологиями обработки больших массивов информации.



Big Data































Чему вы научитесь

Что такое большие данные

История появления науки о данных, определения и термины. Зарождение эры больших данных. Машинные данные и способы их получения, интеграция разнородных данных. Получение больших данных, типы данных. Способы применения больших данных и построение стратегий на их основе. Реализация проектов с использованием больших данных.

Методы анализа больших данных

Основные характеристики больших данных, типы анализа данных. Основные понятия теории машинного обучения. Классы моделей в машинном обучении, дескриптивный анализ. A/B-тестирование и оптимизация. Основные и продвинутые методы анализа больших данных. Процесс создания модели в машинном обучении.

Основы систем больших данных

Основы программирования для работы с большими массивами данных. Основы архитектуры хранения и обработки больших данных, виды обработки (batch/real-time), инструментарий аналитики больших данных. Основы работы в Hadoop и NoSQL.

🎓 Начать обучение

Ключевые навыки:

  • Понимание концепции больших данных и ее составляющих
  • Построение стратегии монетизации данных
  • Построение технологических решений для анализа данных
  • Понимание математического аппарата машинного обучения
  • Проектирование архитектуры обработки больших данных
  • Работа с Hadoop, понимание концепции MapReduce
«Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами, дизайна, проектирования интерфейсов и веб-разработки.

Специалист по большим данным: где учиться и куда пойти работать



Александр Петров, CTO E-Contenta, рассказывает, почему профессионалы в области обработки данных востребованы на рынке и где лучше работать специалистам по Big Data.

Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь.

Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:
  • история транзакций в банках;
  • данные о местоположении и маршрутах всех машин в таксопарке;
  • данные о наблюдении за звездами и планетами в обсерватории;
  • данные с камер, установленных на улицах города для наблюдения за автомобилями и многое, многое другое.
Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.

Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.

В своей колонке я попытаюсь дать обзор направления обработки данных для тех, кто только начинает (или планирует начать) свой карьерный путь в этой области.

Какие есть специализации

Лично я выделил бы 3 основных направления, по которым можно развиваться в области обработки данных: Рассмотрим каждое из них подробнее.

Data Engineer

Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.

Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).

Data Scientist

Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.

Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:

  • «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
  • Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?». Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.

Data Manager

Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.

Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).

Где можно работать в области обработки данных

Разберем различные типы компаний и особенности работы в них.

Крупные интернет-компании. В России это – «Яндекс», Mail.ru (и его подразделения «ВКонтакте» и «Одноклассники»), Rambler. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.

Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.

Но самый главный минус работы в крупных компаниях – это их размер: работа, которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.

Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.

В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».

Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.

Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.

Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.

К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.

Где получить знания в области обработки данных

Вузы

К сожалению, пока что в вузах очень мало обучают анализу данных. Есть несколько исключений: Конечно, и в других учебных программах также освещаются те или иные аспекты работы с данными. Но вузовские программы, которые готовят специалистов комплексно, на этом фактически исчерпываются. Неудивительно: отрасль совершенно новая, специалистов и преподавателей нет. Вузы, где все-таки вводятся программы по обработке данных, обычно делают это в сотрудничестве с крупными компаниями (например, «Яндексом»).

Некоммерческие курсы дополнительного образования

Так как на рынке наблюдается острый дефицит кадров – некоторые компании создают собственные учебные центры. Здесь может учиться любой желающий – нужно только сдать экзамены.

В этой категории можно смотреть на следующие курсы:
  • Школа Анализа Данных «Яндекса» – самый старый и самый известный центр подготовки кадров в области анализа данных. Занятия ведут сотрудники «Яндекса», а также преподаватели лучших вузов страны. Программа рассчитана на 2 года.
  • Техносфера Mail.Ru и факультета ВМиК МГУ – во многом аналогичная программа от второго интернет-гиганта, Mail.Ru. Также рассчитаная на 2 года.
  • Технопарк Mail.Ru и МГТУ им. Баумана – в отличие от «Техносферы», эти курсы больше рассчитаны на подготовку системных инженеров, однако курсу по анализу данных там тоже нашлось место. Срок обучения – 2 года.
  • Центр компьютерных наук – совместный проект Школы Анализа Данных «Яндекса», компании Jet Brains и школы №239 в Санкт-Петербурге. Срок обучения – также 2 года.
  • Петербургская школа данных – цикл лекций, посвященный большим данным, в Петербурге. Проект компании E-Contenta.

Коммерческие курсы

Есть несколько коммерческих программ, позволяющих расширить свой кругозор в области анализа данных. Их отличительные черты – короткий срок обучения и большая направленность на прикладное применение технологий.

Тут можно вспомнить следующие проекты:
  • Курс «Специалист по большим данным» от «Лаборатории Новых Профессий». Длится 3 месяца, состоит из 2 модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй –рекомендательным системам. Стоимость курса – 180 тысяч рублей, предусмотрены различные скидки и рассрочки.
  • «Школа данных Билайна» – курс, в первую очередь, посвящен Machine Learning Продолжительность обучения – 9 недель, стоимость – 100 тысяч рублей.

Онлайн-образование

В последнее время отрасль онлайн-образования переживает настоящий бум, и на ресурсах вроде Coursera, Edx, Stepic и Udacity можно найти огромное число курсов по обработке данных. Большинство – англоязычные (кстати, знание английского языка очень полезно в нашей области), но есть и несколько русскоязычных:

Заключение

В этой колонке я собрал актуальную на текущий момент информацию на рынке труда в области больших данных.

Смотря в будущее – нет никаких оснований полагать, что спрос на специалистов упадет в ближайшие несколько лет. Что это значит? Если вас интересует область анализа данных, то, получив образование и опыт в данном направлении, вы будете ценным специалистом на рынке труда и точно не останетесь без работы. Получая востребованную интернет-профессию вы гарантированно движитесь вперёд к успеху и благополучию.

Надеюсь, статья помогла вам определиться со своими интересами и понять, с чего начать обучение.



Design by WEB STYLE — разработка сайта
Сайт создан в системе uCoz