Открыто

Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 9 дек 2021.

Цена: 23450р.-90%
Взнос: 2148р.

Основной список: 13 участников

Резервный список: 3 участников

  1. 9 дек 2021
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Основы Apache Hadoop [2022]
    Специалист
    Сергей Шуйков


    Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

    Проект используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

    На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

    Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

    Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

    Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

    Вы научитесь:
    1. Настраивать виртуальные машины для запуска Hadoop приложений.
    2. Работать с файловой системой HDFS.
    3. Создавать распределенное приложение, работающее на узлах кластера Hadoop.

    Вы будете знать:
    1. Архитектуру Hadoop;
    2. Распределенную файловую систему HDFS;
    3. Классический MapReduce;
    4. Использование YARN;

    Модуль 1 - Архитектура Hadoop
    • Лабораторная: Создание и конфигурирование виртуальных машин.
    Модуль 2 - Распределенная файловая система HDFS
    • Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.
    Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce
    • Лабораторная: Управление приложением и ресурсами.
    Модуль 4 - Архитектура YARN
    • Лабораторная: Управление ресурсами кластера.
    Модуль 5 - Выполнение задач в приложении MapReduce и YARN
    • Лабораторная: Использование распределенного кэша.
    Модуль 6 - Использование потоковой обработки (Hadoop Streaming)

    Модуль 7 - Компоненты экосистемы Hadoop
    • Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
    • Введение в Sqoop (взаимодействие с классическими реляционными базами).

    Продажник
     
    1 человеку нравится это.
  2. Последние события

    1. endystark
      endystark участвует.
      5 мар 2025
    2. EvgenDBA
      EvgenDBA участвует.
      16 янв 2024
    3. AlexEmart
      AlexEmart участвует.
      4 авг 2023
    4. Cantona56
      Cantona56 не участвует.
      24 июл 2023

    Последние важные события

    1. skladchik.com
      Нужен организатор складчины.
      29 май 2022
    2. skladchik.com
      Назначен организатор.
      28 май 2022