現實世界中的Hadoop課程 – 實踐中的業務分配存儲。

”“”

現實世界Hadoop-實踐中的業務分佈式存儲

掌握用Hadoop HDFS在業務分佈式存儲平台上操縱文件的藝術。

Hadoop分佈式文件系統(HDFS)是一個分佈式文件系統,旨在在普通硬件上運行。它與其他現有的分佈式文件系統共享相似之處。

讓我們探索HDFS文件系統。但是,為什麼公司首先對HDFS感興趣?與其他分佈式文件系統的差異很大。 HDFS具有很高的失敗耐力,被設計為以低成本硬件的形式部署。它提供了對應用程序數據的高性能訪問權限,適用於處理大型數據集的應用程序。 HDFS放鬆一些POSIS要求,以允許流媒體訪問文件系統數據。他是Apache Hadoop核心項目的一部分。

在HDF中,硬件故障是常態,而不是例外。 HDF的實例可以由數百或數千台僕人計算機組成,每個機器都存儲了文件系統數據的一部分。存在大量組件並且每個組件具有非平凡的失敗概率,這一事實意味著某些HDFS組件始終不起作用。因此,故障檢測和快速自動恢復是HDF的基本建築目標。

在HDFS中執行的應用程序處理大型數據集。一個典型的HDFS文件具有千兆字節的TORABYTES。因此,對HDFS進行了優化以支持大文件。它提供高骨料數據帶寬,可以在一個群集中為我們數百個群體大小。在一個實例中,它還可以支持數千萬個文件。

如果應用程序的計算靠近其運行的數據,尤其是當數據庫的大小較大時,則該計算的計算效率要高得多。這可以最大程度地減少網絡擁塞並提高系統的一般轉移率。假設是,通常最好將計算遷移到數據所在的近距離,而不是移動執行應用程序的數據。 HDFS為應用程序提供了接口,以更靠近數據的位置。

課程:

在這裡,我介紹了我的Cloudera課程現狀的課程。

對於那些對Hadoop生態系統幾乎不了解的人來說,建議“ IT管理員,開發人員和顧問的大數據簡介”課程。

對於初學者,我建議與Vagrant練習,以在本地桌面上創建虛擬環境。這使您可以嘗試犯錯而不影響物理服務器。 “用於分佈式計算的現實世界流浪者”課程涵蓋了此主題。

然後,在虛擬服務器上,您可以部署Cloudera Manager和代理。代理商負責管理奴隸和部署Hadoop服務。 “現實世界流浪者 – 自動化Cloudera Manager的創建”提供了有關此步驟的準則。

然後,您可以使用已安裝的Cloudera Manager在群集上部署Hadop Services。 “現實世界中的Hadoop-與Cloudera Manager的Hadoop植入”解釋了主人和奴隸服務的位置背後的邏輯。

如果您想獲得HDFS命令和分佈式文件操作的實用經驗,則建議使用“ Real -World Hadoop-實踐中的業務分佈式存儲”課程。

對於那些有興趣使用Python和Cloudera Manager的Python API自動化Hadoop的服務部署的人來說,“現實世界的Hadoop Hadoop的Hadoop – 自動使用Python自動化Hedoop安裝!”解決此高級主題。但是,重要的是要了解如何首先手動部署Hadop Services。

最後,有更新步驟。 “現實世界的Hadoop – Cloudera和Hadoop的實際更新”為Cloudera Manager和Hadoop Services的最新Hadoop集群提供了有關更新的指南。

您將學到什麼:

  • 了解如何瀏覽HDFS文件系統。
  • 輕鬆創建一個在桌面上運行單個命令的HDFS電池。
  • 快速配置環境以安裝Cloudera和HDFS軟件。
  • 能夠在各種虛擬機上自動化軟件安裝。
    ”“”
Scroll to Top