Keeping Spark on Track: Productionizing Spark for ETL: talk by Kyle Pistor and Miklos Christine

Опубликовано: 29 Май 2025
на канале: Spark Summit

9,149

122

ETL is the first phase when building a big data processing platform. Data is available from various sources and formats, and transforming the data into a compact binary format (Parquet, ORC, etc.) allows Apache Spark to process it in the most efficient manner. In this talk, we will discuss common issues and best practices for speeding up your ETL workflows, handling dirty data, and debugging tips for identifying errors.

00:00:00

Елабуга. Город с историей в 1000 лет. Где собирают автомобили Аурус.

Елабуга. Город с историей в 1000 лет. Где собирают автомобили Аурус.

2Br/2Bth in Edgerton Hall

2Br/2Bth in Edgerton Hall

ЭВОЛЮЦИЯ ЗОМБИ БАЗЫ. Максимальный уровень! Dusk WarZ

ЭВОЛЮЦИЯ ЗОМБИ БАЗЫ. Максимальный уровень! Dusk WarZ

Royal Enfield Himalayan Delivery ❤️

Royal Enfield Himalayan Delivery ❤️

Учимся управлять своим здоровьем

Учимся управлять своим здоровьем

UK YOUTUBERS REACT TO KPOP 'LISA - LALISA'

UK YOUTUBERS REACT TO KPOP 'LISA - LALISA'

280000❤️ | Standoff 2 & CS:GO

280000❤️ | Standoff 2 & CS:GO

Don Silvio - FARAON (Official Video)

Don Silvio - FARAON (Official Video)