ETL管道寫作課程準備在Python / Pandas生產

”“”

<

h1>編寫ETL管道準備在Python / Pandes < / h1>中生產

學習如何使用Python和Data Engineering中的最佳實踐編寫專業ETL管道

本課程將指導您遵循行業的最佳實踐以及使用數據工程的力量,在Python中創建ETL管道的過程。

課程概述

在本課程中,您將逐步了解如何使用Python從頭開始構建ETL管道。我們將介紹所有必要的工具和技術,包括Python 3.9,Jupyter Notebook,Git和Github,Visual Studio Code,Docker和Docker Hub。此外,我們還將探索Python必需軟件包,例如Pandas,Boto3,Pyyaml,Awscli,Jupyter,Pylint,Moto,Coverag,Coverag和Memory-Profiler。

您將在數據工程領域中介紹兩種不同的編碼方法:功能編程和麵向對象的編程。我們還將重點介紹Python開發中最佳實踐的實施,包括設計原理,清潔代碼,虛擬環境,項目/文件夾配置,日誌記錄,異常處理,裁縫,依賴管理,依賴性管理,分析性能調整,單位測試,集成和Dockerization測試。

課程目標

本課程的主要目的是為您提供使用真實世界數據集創建ETL管道所需的技能和知識。我們將使用Xettra數據庫,該數據庫幾乎是在DeutscheBörs貿易系統的幾乎實時得出的,並將存儲在一個可以免費訪問的Bucket AWS S3中。

我們將在本課程中構建的ETL管道將將Xetra數據庫從AWS S3源存儲桶中提取到計劃基礎中,執行必要的轉換並加載轉換為另一個AWS S3存儲桶的數據。該管道將​​設計為輕鬆部署在能夠處理包含應用程序的各種生產環境中。

我們將重點關注的生產環境包括一個GitHub代碼存儲庫,DockerHub圖像存儲庫,像Kubernetes這樣的執行平台以及編排工具,例如Kubernetes Argo Workflows的本機工作流引擎或氣流Apache。

課程結構

本課程主要由實用和互動類組成,您將積極地編纂和實施ETL管道。但是,在必要時,還將有理論類別以提供對概念的紮實理解。

您將可以訪問課程材料中每一堂課的Python代碼,Github的完整項目以及準備與Hub Docker上應用程序一起使用的Docker映像。此外,將可以下載理論課程的PowerPoint幻燈片,並將提供有用的鏈接以獲取更多信息和探索。

您將學到什麼

在本課程結束時,您將購買以下技能和知識:

  • 如何在Python中撰寫專業ETL管道。
  • 在生產級別編寫Python代碼的步驟。
  • 功能編程在數據工程中的應用。
  • 適當設計面向對象的代碼。
  • 使用元文件進行任務控件。
  • ETL/數據工程的最佳Python編碼實踐。
  • 實施Python管道,以從AWS S3源中提取數據,將轉換和加載數據加載到另一個Bucket AWS S3。

    立即加入我們,並登上成為熟練的Python ETL管道開發人員的旅程!

Scroll to Top