一.Hadoop
1.Hadoop的源起——Lucene,從lucene到nutch,從nutch到hadoop
· 2003-2004年,Google公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,使Nutch性能飆升
· Yahoo招安Doug Cutting及其項(xiàng)目
· Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分別被納入稱為Hadoop的項(xiàng)目中
· 名字來源于Doug Cutting兒子的玩具大象
2.Hadoop能解決的問題
hadoop作為大數(shù)據(jù)系統(tǒng)可以做的事情有很多的,最為常見的像日志分析,搜索,圖片分析,物聯(lián)網(wǎng)傳感數(shù)據(jù)分析,數(shù)據(jù)的長(zhǎng)期存儲(chǔ)。我們選擇hadoop是因?yàn)閔adoop具有這些優(yōu)點(diǎn)。可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
性價(jià)比高
容錯(cuò)率高,當(dāng)服務(wù)當(dāng)中的一臺(tái)服務(wù)的軟硬件出錯(cuò)后系統(tǒng)都能繼續(xù)運(yùn)行
能夠?qū)A繑?shù)據(jù)快速存儲(chǔ)
對(duì)海量數(shù)據(jù)做快速計(jì)算
能夠通過添加節(jié)點(diǎn)的方式快速擴(kuò)展系統(tǒng)
hadoop對(duì)系統(tǒng)數(shù)據(jù)安全性是有保障的
看多hadoop的朋友都知道,存儲(chǔ)在hadoop平臺(tái)中的數(shù)據(jù),通過統(tǒng)一的分布式存儲(chǔ)HDFS,可以將數(shù)據(jù)的訪問和存儲(chǔ)分布在大量服務(wù)器之中,在可靠的多備份存儲(chǔ)的同時(shí),還能將訪問分布到集群的各個(gè)服務(wù)器之上。
hadoop架構(gòu)可以很好的解決數(shù)據(jù)庫(kù)擴(kuò)展的瓶頸,它把數(shù)據(jù)庫(kù)的設(shè)計(jì)部署在經(jīng)濟(jì)實(shí)惠的硬件上,通過橫向擴(kuò)展,便可無限的提升數(shù)據(jù)庫(kù)的數(shù)據(jù)處理能力。
二.Spark
1.Spark的定義
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。其架構(gòu)如下圖所示:
2.如何使用Spark
Spark可以直接對(duì)HDFS進(jìn)行數(shù)據(jù)的讀寫,同樣支持Spark on YARN。Spark可以與MapReduce運(yùn)行于同集群中,共享存儲(chǔ)資源與計(jì)算,數(shù)據(jù)倉(cāng)庫(kù)Shark實(shí)現(xiàn)上借用Hive,幾乎與Hive完全兼容。
由于RDD的特性,Spark不適用那種異步細(xì)粒度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲(chǔ)或者是增量的web爬蟲和索引。就是對(duì)于那種增量修改的應(yīng)用模型不適合。
總的來說Spark的適用面比較廣泛且比較通用。
有人說:“Spark就像一個(gè)高性能引擎; 它支持您想要對(duì)數(shù)據(jù)執(zhí)行的工作。Hadoop可以提供一個(gè)可能的存儲(chǔ)層,為Spark引擎提供數(shù)據(jù)”。
在大數(shù)據(jù)技術(shù)領(lǐng)域當(dāng)中,應(yīng)用Hadoop和Spark技術(shù)體系,能強(qiáng)化大數(shù)據(jù)平臺(tái)的分布式集群架構(gòu)和核心關(guān)鍵技術(shù)實(shí)現(xiàn)、大數(shù)據(jù)應(yīng)用項(xiàng)目開發(fā)和大數(shù)據(jù)集群運(yùn)維實(shí)踐、以及Hadoop與Spark大數(shù)據(jù)項(xiàng)目應(yīng)用開發(fā)與調(diào)優(yōu)的全過程沙盤模擬實(shí)戰(zhàn)。而這些在培訓(xùn)中就能就能全盤掌握。另外,通過一個(gè)完整的大數(shù)據(jù)開發(fā)項(xiàng)目及一組實(shí)際項(xiàng)目訓(xùn)練案例,完全覆蓋Hadoop與Spark生態(tài)系統(tǒng)平臺(tái)的應(yīng)用開發(fā)與運(yùn)維實(shí)踐。課堂實(shí)踐項(xiàng)目以項(xiàng)目小組的形式進(jìn)行沙盤實(shí)操練習(xí),重點(diǎn)強(qiáng)化理解Hadoop與Spark大數(shù)據(jù)項(xiàng)目各個(gè)階段的工作重點(diǎn),同時(shí)掌握作為大數(shù)據(jù)項(xiàng)目管理者的基本技術(shù)與業(yè)務(wù)素養(yǎng)。
據(jù)了解,中培偉業(yè)(http://www.qinzhounet.cn/)成立十年來,一直致力于我國(guó)范圍內(nèi)高端IT咨詢與培訓(xùn)服務(wù)。始終秉持“顧客滿意度第一、利潤(rùn)第二”的理念。為了切實(shí)貫徹顧客滿意度第一的原則,中培邀請(qǐng)了一批國(guó)內(nèi)外知名企業(yè)的高層經(jīng)理和資深專家指導(dǎo)加盟。
其大數(shù)據(jù)授課師資都是有著多年在一線從事Hadoop與Spark大數(shù)據(jù)項(xiàng)目的資深講師,采用原理技術(shù)剖析和實(shí)戰(zhàn)案例相結(jié)合的方式開展互動(dòng)教學(xué)、強(qiáng)化以建立大數(shù)據(jù)項(xiàng)目解決方案為主體的應(yīng)用開發(fā)、技術(shù)討論與交流咨詢,在學(xué)習(xí)的同時(shí)促進(jìn)講師學(xué)員之間的交流,讓每個(gè)學(xué)員都能在課程培訓(xùn)過程中學(xué)到實(shí)實(shí)在在的大數(shù)據(jù)技術(shù)知識(shí)體系,以及大數(shù)據(jù)技術(shù)應(yīng)用實(shí)戰(zhàn)技能,具備實(shí)際大數(shù)據(jù)應(yīng)用項(xiàng)目的動(dòng)手開發(fā)實(shí)踐與運(yùn)維管理部署能力。
想了解更多IT資訊,請(qǐng)?jiān)L問中培偉業(yè)官網(wǎng):中培偉業(yè)