Sparkify-data-lake

This is project 4 of Udacitys Data Engineering Nanodegree. In this project Spark is used to pull data from a s3 bucket. Temporary tables are then created, and data is uploaded to another bucket written in .parquet format.

Starting the program

Add global aws config values in dl.cfg
Execute "etl.py".

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data		data
.gitignore		.gitignore
README.md		README.md
dl.cfg		dl.cfg
etl.py		etl.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sparkify-data-lake

Starting the program

About

Releases

Packages

Languages

ovsundal/Sparkify-Data-Lake

Folders and files

Latest commit

History

Repository files navigation

Sparkify-data-lake

Starting the program

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages