Skip to content

balezz/learning_spark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

55 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Технологии обработки больших данных

Практическая часть курса посвящена основам работы с фреймворком spark.
Выполненные задания присылать на почту ailabintsev@fa.ru
Текущая успеваемость отражается в файле leaderboard.csv
Баллы за текущий контроль успеваемости складываются из первых трех ДЗ и активности на занятиях / в переписке. Максимум 5/5/10 за выполненные задания в срок + 5 баллов за активность.

Ссылка на гугл диск:
https://drive.google.com/drive/folders/14igaMTWTQvEszOYKfnVkjc8A0bpXLx3e

Вопросы к экзамену

  1. Функциональная парадигма программирования. Функции высшего порядка - map, filter, reduce.
  2. Hadoop. Общие принципы распределенного хранения и обработки данных.
  3. Spark. Общие принципы, отличие от hadoop. Работа на одиночной машине и в кластере.
  4. Spark. 4 основных компонента библиотеки и их назначение.
  5. Spark. Ленивые и интенсивные вычисления (transformations and actions).
  6. Spark. Основные методы pyspark.sql.DataFrame и их назначение.
  7. Spark. Основные методы pyspark.pandas.DataFrame и их назначение.
  8. Spark. Основные методы RDD и их назначение.
  9. Spark SQL. Работа с запросами SQL.
  10. Spark ML. Линейная регрессия.
  11. Spark ML. Деревья решений.

Практические задания на экзамене будут как в ДЗ 3 и 4.

Темы семинаров

  1. Введение в функциональное программирование на python
  2. Введение в Spark. Установка, базовые API.
  3. Классы представления данных: DataFrame, RDD, PandasAPI.
  4. Работа с SQL представлениями, таблицами, базами данных.
  5. Spark ML. Линейная регрессия.
  6. Spark ML. Деревья решений.

Итого за 6 заданий 30 баллов (по 5 за задание).
10 баллов за активность на занятиях.
60 баллов за экзамен (30 теория, 30 практика).

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors