現實世界火花課程 – jupyter Python Spark Core

現實世界火花2- jupyter python spark core

使用Spark 2 Core創建一個流浪的Python Jupyter環境和代碼/監視器。現代集群計算引擎。

創建一個Vagrant Python Jupyter環境,並使用Spark 2 Core進行編碼/監視器。現代集群計算引擎。

注意:本課程基於“現實世界流浪者 – 創建Apache Spark! – Toyin Akin”課程。因此,如果您尚未安裝火花環境(在VM中或直接安裝),則可以使用上面提到的課程。

Jupyter Notebook是一個Mathematica類似的系統,可讓您創建“可執行文件”。筆記本在單個文檔中集成了格式化的文本(Markdown),可執行代碼(Python),數學公式(乳膠)和圖表和視圖(Matplotlib),該文檔捕獲探索的流程,並可以作為格式的報告或可執行腳本導出。

Jupyter Notebook是一個Web應用程序,可讓您創建和共享包含實時代碼,方程式,視圖和解釋性文本的文檔。用途包括:數據清潔和轉換,數值模擬,統計建模,機器學習等。

與大數據集成

享受Python的大數據工具,例如Apache Spark

Jupyter筆記本電腦基於一組開放的計算模式。想想用於交互式Web計算的HTML和CSS。這些開放模式可以被第三方開發人員使用,以構建使用Incorporated Interactive Computing的個性化應用程序。

火花監控和儀器

通過創建RDD,進行轉換和執行操作,您將在查看Web用戶界面監視方面有力地工作。

每個SparkContext在端口4040上默認啟動Web用戶界面,該端口4040顯示了有關應用程序的有用信息。包括了:

  • 代表器的階段和任務列表
  • RDD尺寸和內存使用的摘要
  • 環境信息。
  • 執行中有關執行者的信息

    為什麼Apache火花…

    Apache Spark運行的程序的運行速度比內存中的Hadoop MapReduce快100倍,或磁盤上的10倍。 Apache Spark具有高級的DAG執行機制,該機制支持循環數據流和內存中的計算。 Apache Spark提供了80多個高級運算符,可輕鬆創建並行應用程序。您可以從Scala,Python和R. Apache Spark可以從Shells Scla,可以將SQL,流和復雜分析結合使用。 Apache Spark饋送一堆庫,包括SQL和DataFrames,用於機器學習,GraphX和Spark流的MLLIB。您可以在同一應用程序中完美地組合這些庫。

    你會學到什麼

  • 只需在桌面上運行一個命令,去喝咖啡,然後返回分佈式環境以進行集群部署

  • 能夠在各種虛擬機上自動化軟件安裝
  • 與Spark的Python中的代碼。火花轉換,動作和監視
Scroll to Top