”“”
現實世界火花2-鱗片火花核心2
構建一個流浪漢,使用SBT和Scalaide探索Core 2 Core代碼。嘗試現代集群計算機制的力量。
注意:本課程基於“現實世界流浪者 – 建造Apache Spark! – Toyin Akin”課程。如果您還沒有安裝的Spark + Scalaide環境(在VM中或直接安裝),則可以使用上面提到的課程。
scala ide
IDE Scala為純Scala和混合應用開發Scala-Java提供了高級編輯和清除支持。憑藉Scala,語義增強,可靠的Junit測試定位器,相關插件生態系統等功能,它提供了完美的開發體驗。
火花監控和儀器
在使用RDD,進行轉換和執行操作時,您將使用Web用戶界面監視擴展。每個SparkContext啟動Web用戶界面,通常在端口4040中,該端口提供有關應用程序的寶貴信息。這包括時間表的階段和任務列表,RDD尺寸和內存使用的摘要,環境信息以及有關運行執行者的詳細信息。
為什麼Apache Spark?
Apache Spark可以比內存中的Hadoop MapReduce快100倍,或在磁盤上快10倍。它具有高級的DAG執行機制,該機制支持記憶中的循環數據流和計算。擁有超過80個高級操作員,並行應用的構建變得容易。此外,您可以在Shells Scala,Python和R中進行交互性地使用Apache Spark。它還在SQL,流和復雜分析的組合中脫穎而出。此外,Apache Spark還為一堆庫,包括SQL和DataFrames,用於機器學習,GraphX和Spark流的MLLIB,從而使這些庫在同一應用程序中的完美集成。
您將學到什麼
- 使用單個命令配置分佈式環境以進行集群部署
- Scala中反對Spark中的代碼,包括火花轉換,動作和監視
- Scalaide中的Debur Spark代碼
“”