DATALEARN | DE - 101 | МОДУЛЬ 7-3 НАЧАЛО РАБОТЫ В APACHE SPARK

Опубликовано: 15 Ноябрь 2024
на канале: DataLearn

3,799

Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).

В этом видео:
📌 Скачаем и запустим Apache Spark
📌 Посмотрим как запустить Spark на Windows
📌 Посмотрим на Spark UI
📌 Узнаем про основные компоненты Spark
📌 Начнем использовать PySpark
Запустим Spark программу с помощью spark-submit

В качестве лабораторной работы мы возьмем готовый код про конфеты M&Ms и запустим его локально, используя Spark Submit, а потом запустим тот же код в ноутбуке Databricks, где мы сможем посмотреть как выполняется код частями в интерактивном режиме.
=====
В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks и аналгоми Amazon Glue и Azure Synapse. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥Самые актуальные новости про аналитику в Telegram канале: https://t.me/rockyourdata