現實世界火花課程2 -Python Interactive Pyspark Core

現實世界火花2- python Interactive pyspark Core

與Spark 2 Core創建一個流浪的Python Pyspark和Code/Monitore群集。現代集群計算引擎。

注意:本課程基於“現實世界流浪者 – 建造Apache Spark! – Toyin Akin”課程。因此,如果您尚未安裝火花環境(在VM內或直接安裝),則可以使用上面提到的課程。

Spark’s Shell Python提供了一種簡單的學習API的方法,也提供了一種可以交互分析數據的功能強大的工具。它可在Python中找到。通過在構建虛擬機內部的bash終端內的任何位置運行以下任何位置。

Spark的主要抽像是一個分佈式的項目集合,稱為彈性分佈式數據集(RDD)。可以從集合,Hadoop Inputformats(例如HDFS文件)或轉換其他RDD的RDD創建RDD。

火花監控和儀器

通過創建RDD,進行轉換和執行操作,您將在查看Web用戶界面監視方面有力地工作。

每個SparkContext在端口4040上默認啟動Web用戶界面,該端口4040顯示了有關應用程序的有用信息。包括了:

  • 規模的階段和任務列表
  • RDD尺寸和內存使用的摘要
  • 環境信息。
  • 執行中有關執行者的信息

<

h3>為什麼Apache Spark …

Apache Spark運行的程序的運行速度比內存中的Hadoop MapReduce快100倍,或磁盤上的10倍。 Apache Spark具有高級的DAG執行機制,該機制支持循環數據流和內存中的計算。 Apache Spark提供了80多個高級運算符,可輕鬆創建並行應用程序。您可以從Scala,Python和R. Apache Spark可以從Shells Scla,可以將SQL,流和復雜分析結合使用。 Apache Spark饋送一堆庫,包括SQL和DataFrames,用於機器學習,GraphX和Spark流的MLLIB。您可以在同一應用程序中完美地組合這些庫。

您將學到什麼

  • 只需在桌面上運行一個命令,去喝咖啡,然後返回分佈式環境以進行集群部署
  • 能夠在各種虛擬機上自動化軟件安裝
  • 針對Spark的Python代碼。火花轉換,動作和監視</ pyspark>
Scroll to Top