5-дневный практический тренинг по настройке batch/streaming потоков данных средствами Apache Spark, Flume, Kafka, sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop и процессов ETL/ELT
Аудитория: Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в Data Lake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфике использования процессов ETL/ELT в кластерах Hadoop, и организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Предварительный уровень подготовки:
- Начальный опыт работы в Unix
- Начальный опыт работы с SQL
Продолжительность: 5 дней, 40 академических часа.
Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.
Соотношение теории к практике 40/60
Москва, ул. Илимская, дом 5/2, офис 303HDDE: Hadoop для инженеров данных
Дата проведения: 22.04.2019 - 23.04.2019. Начало 22.04.2019 в 09:30
Место проведения: Москва , ул. Илимская, дом 5/2, офис 303
Стоимость: 90000 р.
- Анонс
- Программа
- Участники
- Спикеры
5-дневный практический тренинг по настройке batch/streaming потоков данных средствами Apache Spark, Flume, Kafka, sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop и процессов ETL/ELT
Аудитория: Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в Data Lake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфике использования процессов ETL/ELT в кластерах Hadoop, и организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Предварительный уровень подготовки:
- Начальный опыт работы в Unix
- Начальный опыт работы с SQL
Продолжительность: 5 дней, 40 академических часа.
Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.
Соотношение теории к практике 40/60