培訓受眾:
具備基本Linux系統管理經驗,無需具備掌握Hadoop相關知識。
課程收益:
學習系統管理的概念和Apache Hadoop的最佳實踐,從安裝和配置到負載均衡和調優。這個4天的的課程通過動手時間來賦予你部署的經驗,以及更多的安全方面的經驗和故障排除。課程結束后,學員可以去參加Cloudera和Apache Hadoop管理員(CCAH)考試來驗證和認證他們的Hadoop經驗。
培訓頒發證書:
Cloudera ApacheHadoop資格管理員考試提供業界進行Hadoop安裝部署及管理調優領域里唯一且最具權威性、并得到全球認可的認證。為企業提供了高質量可以依賴的Hadoop管理員,保障了海量數據存儲和處理計算平臺系統的高質量;為工程師技術人員提供了最新的技術裝備,開拓了職業發展。
課程摘要:
? Hadoop分布式文件系統(HDFS)和MapReduce的工作原理
? 如何優化Hadoop機群所需要的硬件配置
? 搭建Hadoop機群所需要考慮的網絡因素
? 如何利用Hadoop配置選項進行系統性能調優
? 如何利用FairScheduler為多用戶提供服務級別保障
? Hadoop機群維護和監控
? 如何使用Flume從動態生成的文件加載數據到Hadoop
? 如何使用Sqoop從關系型數據庫加載數據
? 使用其他Hadoop相關系統工具(諸如Hive,Pig和H)所涉及到的系統管理問題
課程大綱:
1)為什么使用Hadoop?
? HDFS介紹
? MapReduce介紹
? Hive, Pig, H和其他Hadoop生態系統項目
? 上機實驗
2)Hadoop機群規劃
? 一般考慮因素
? 選擇合適的硬件
? 網絡考慮
? 配置節點
3)配置和部署Hadoop機群
? 部署種類
? 安裝Hadoop
? 使用Cloudera Manager進行簡易安裝
? 典型配置參數
? 機柜配置(Rack Awareness)
? 使用配置管理工具
? 上機實驗
4)管理調度任務
? 管理運行的任務
? 上機實驗
? 先進先出調度器(FIFO Scheduler)
? 公平調度器(FairScheduler)
? 配置公平調度器
? 上機實驗
5)Hadoop維護
? 檢查HDFS狀態
? 上機實驗
? Hadoop機群之間的數據拷貝
? 增減Hadoop機群節點
? Hadoop機群數據負載平衡
? 上機實驗
? 名字節點(NameNode)元數據(data)的備份
? 機群升級
6)Hadoop機群監控和故障排除
? 一般性系統監控
? 管理Hadoop日志文件
? 使用NameNode和JobTracker的Web UI
? 上機實驗
? 使用Ganglia來監控機群
? 常見故障問題
? 用基準測試工具測試機群性能
7)為Hadoop機群加載外部數據源
? Flume概述
? 上機實驗
? Sqoop概述
? 導入數據的最佳實踐
8)安裝和管理其他Hadoop項目
? Hive
? Pig
? 其他上機實驗