Открыто

Python для Data Science [2021] [robot dreams] [Анна Пылева]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 6 авг 2021.

Цена: ----
Взнос: ----

Основной список: 14 участников

Резервный список: 9 участников

  1. 6 авг 2021
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Python для Data Science [2021]
    robot dreams
    Анна Пылева


    Освойте ключевой инструмент в сфере аналитики и машинного обучения.

    Наиболее эффективный способ заставить данные «говорить» ― освоить Python и его библиотеки. С этим вам поможет курс от robot_dreams. Вы научитесь парсить сайты, работать с сырыми данными, автоматизировать процесс анализа и визуализации, валидировать гипотезы и строить простые ML-модели.
    1. Работать с разными типами и структурами данных
    2. Использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
    3. Строить продвинутые и интерактивные визуализации
    4. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
    5. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
    6. Заполнять пробелы в данных
    7. Валидировать гипотезы и анализировать результаты А/В-тестирования
    8. Строить простые ML-модели
    9. Начать путь в Data Science
    1. Analysts / Data Analysts / Product Analysts
    • Вы откроете новый подход к аналитике больших данных благодаря Python. Научитесь пользоваться библиотеками языка и с помощью простого кода проводить манипуляции над данными: парсить сайты и находить информацию, очищать данные и заполнять пробелы в массивах, строить интерактивные визуализации и на основе глубокого анализа предлагать бизнес-решения, которые точно сработают.
    • После курса вы сможете начать свой путь в Data Science.
    2. Developers
    • Вы научитесь использовать Python для работы с данными. Будете проводить Exploratory Data Analysis, решать задачи прогнозирования и строить простые ML-модели. Узнаете, как находить инсайты в графиках и диаграммах, а потом на основе анализа формулировать и валидировать статистические гипотезы.
    • В результате ― вы освоите инструменты аналитики и заложите фундамент развития в Data Science.
    Модуль 1 - Введение в Data Science. Знакомство с задачами и инструментами
    • Разберитесь, какие задачи входят в область Data Science.
    • Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory].
    • Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками.
    • Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
    Модуль 2 - NumPy. Линейная алгебра и статистика
    • Возобновите знания по линейной алгебре и статистике.
    • Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy.
    • Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
    Модуль 3 - Pandas. Работа с табличными данными
    • Узнайте, какие задачи Data Science помогает решить библиотека Pandas.
    • Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу.
    • Узнайте, что делать, чтобы не перегружать оперативку.
    Модуль 4 - Matplotlib и Seaborn. Визуализация данных
    • Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram].
    • Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn.
    • Узнайте о трех способах визуализации данных из Pandas в Dataframe.
    Модуль 5 - Plotly. Продвинутые и интерактивные визуализации
    • Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot].
    • Постройте базовую интерактивную визуализацию в Plotly.
    • Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.
    Модуль 6 - Exploratory Data Analysis и очистка данных
    • Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных.
    • Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
    Модуль 7 - Поиск и устранение отсутствующих значений
    • Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки.
    • Обучитесь нескольким техникам заполнения отсутствующих значений.
    Модуль 8 - Статистический анализ данных
    • Ознакомьтесь с библиотекой SciPy.
    • Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин.
    • Изучите основы проверки статистических гипотез.
    • Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.
    Модуль 9 - Задача прогнозирования. Линейная регрессия
    • Подготовьте данные для задачи линейной регрессии.
    • Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn.
    • Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn.
    • Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.
    Модуль 10 - Задача прогнозирования. Другие виды регрессий
    • Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть».
    • Научитесь улучшать качество линейной регрессии с помощью регуляризации.
    • Узнайте, что делать в случае высокого bias OR высокого variance модели.
    Модуль 11 - Задача классификации. Логистическая регрессия
    • Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии.
    • Обучите модель логистической регрессии для классификации данных и оцените ее качество.
    • Научитесь оценивать качество модели мультиклассовой классификации.
    Модуль 12 - Деревья принятия решений
    • Изучите принцип работы модели «Деревья принятия решений».
    • Определите отличия этой модели от остальных.
    • Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
    Модуль 13 - Ансамбли моделей
    • Изучите базовые техники построения ансамблей.
    • Научитесь строить и обучать разные типы ансамблей моделей.
    • Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
    Модуль 14 - Библиотеки CatBoost и XGBoost
    • Ознакомьтесь с библиотеками CatBoost и XGBoost.
    • Узнайте, какие задачи они решают и чем отличаются друг от друга.
    • Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
    Модуль 15 - Кластерный анализ данных
    • Узнайте, как обучить модель без учителя с помощью кластеризации.
    • Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering.
    • Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
    Модуль 16 - Отбор признаков и уменьшение соразмерности данных
    • Изучите простые способы выбора признаков.
    • Выберите признаки так, чтобы оставить только самые значимые для модели.
    • Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].

    Примечание: на момент создания темы актуальная цена не известна.

    Продажник
     
    1 человеку нравится это.
  2. Последние события

    1. Passaddhi
      Passaddhi не участвует.
      15 май 2024
    2. skladchik.com
      В складчине участвует 20 человек(а).
      30 июл 2023
    3. skladchik.com
      В складчине участвует 20 человек(а).
      22 май 2023
    4. American Dream
      American Dream участвует.
      21 май 2023