Добавить в календарь 15.05.2019 10:00 16.05.2019 18:00 Europe/Moscow SPARK: Администратор кластера Apache Spark

3-дневный практический курс администрирования кластера Apache Spark, организации потоковой обработки Spark Streaming, настройкам производительности 

Аудитория: Специалисты, администраторы, желающие получить опыт настройки и использования компонентов Apache Spark (Spark Streaming, Spark Core)

Предварительный уровень подготовки:

  1. Начальный опыт работы в Unix/SQL
  2. Начальный опыт программирования (Scala/Python/Java)

Продолжительность: 3 дня, 24 академических часа.

3- дневный интенсивный практический тренинг по знакомству с платформой для распределенной  обработки больших данных Apache Spark.

В ходе лекций и лабораторных работы вы научитесь:

  1. настраивать кластер Apache Spark для запуска задач на Scala и R при обработке больших массивов неструктурированных данных;
  2. поймете разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets;
  3. настраивать и анализировать данные в потоке Spark Streaming;
  4. интегрировать компоненты Apache Spark с другими компонентами экосистем Hadoop.

Соотношение теории к практике 40/60

Москва, ул.Илимская, дом 5/2, офис 303

SPARK: Администратор кластера Apache Spark

logo_мини.png

Дата проведения: 15.05.2019 - 16.05.2019. Начало 15.05.2019 в 10:00

Место проведения: Москва, ул.Илимская, дом 5/2, офис 303

Стоимость: 54000 р.

Организатор: Школа больших данных
  • Анонс
  • Программа
  • Спикеры
  • Участники

3-дневный практический курс администрирования кластера Apache Spark, организации потоковой обработки Spark Streaming, настройкам производительности 

Аудитория: Специалисты, администраторы, желающие получить опыт настройки и использования компонентов Apache Spark (Spark Streaming, Spark Core)

Предварительный уровень подготовки:

  1. Начальный опыт работы в Unix/SQL
  2. Начальный опыт программирования (Scala/Python/Java)

Продолжительность: 3 дня, 24 академических часа.

3- дневный интенсивный практический тренинг по знакомству с платформой для распределенной  обработки больших данных Apache Spark.

В ходе лекций и лабораторных работы вы научитесь:

  1. настраивать кластер Apache Spark для запуска задач на Scala и R при обработке больших массивов неструктурированных данных;
  2. поймете разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets;
  3. настраивать и анализировать данные в потоке Spark Streaming;
  4. интегрировать компоненты Apache Spark с другими компонентами экосистем Hadoop.

Соотношение теории к практике 40/60

Программа курса

  1. Введение в Apache Spark
    • Сравнение Hadoop и Spark
    • Сравнение Batch, Real-Time и in-Memory  процессинг
    • Особенности Apache Spark
    • Компоненты Apache Spark экосистемы
  2. Введение в RDD — Resilient Distributed Dataset
    • Что такое RDD
    • Особенности использования RDD, RDD lineage
    • Трансформация в Spark RDD
    • Lazy evaluation и отказоустойчивость в Spark
    • Использование Persistence RDD в памяти и на диске
    • Использование key-value пар (ReduceByKey,CountByKey,SortByKey,AggregateByKey)
    • Интеграция Hadoop с Spark
    • Выполнение базовых операций с Cloudera Manager.
  3. Запуск задач в Apache Spark
    • Знакомство с Spark-shell
    • Выполнение задач в Apache Spark
    • Написание программ в Apache Spark
    • Чтение данных с локальной файловой системы и HDFS
    • Зависимости(Dependencies)
    • Кэширование данных в Apache Spark
    • Отказоустойчивость (Fault Tolerance)Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, RCfile, ORC, Parquet.
  4. Управление ресурсами в кластере Apache Spark
    • Архитектура Apache Spark
    • Особенности управления ресурсами в автономном режиме кластера (Standalone)
    • Особенности управления ресурсами в режиме Hadoop кластера с YARN
    • Динамическое распределение ресурсов Dynamic Resource Allocation
    • Оптимизация Apache Spark: использование разделов (partition hash,range,map, static), управление расписанием (dynamic, fair scheduler), использование переменных (shared, broadcast) и аккумуляторов (accumulators)
    • Использование Catalyst Optimizer для оптимизации исполнения запросов
    • Project Tungsten — Оптимизация управления памятью и кэшом CPU
    • Импорт и обработка данных в кластере Hadoop
  5. Потоковая обработка (Streaming) в Apache Spark
    • Потоковая обработка данных для аналитики больших данных
    • Особенности реализации потоковой обработки данных в Apache Spark
    • Основные концепции потоковой обработки
    • Аггрегированные и не аггрегированные запросы
    • Обработка событий Event Time, Window и Late Events (скользящее окно событий)
    • Поддержка последних событий (Late Events) в потоковой обработке данных в Apache Spark
    • Режимы работы Apache Spark с потоковыми данными