Hadoop作為當(dāng)前主流的大數(shù)據(jù)架構(gòu),雖然其可以運(yùn)行在廉價(jià)的商品計(jì)算機(jī)硬件,且用戶(hù)很容易添加節(jié)點(diǎn),但是它有一些細(xì)節(jié)是很昂貴的,尤其是在生產(chǎn)環(huán)境中運(yùn)行Hadoop。
中培偉業(yè)《大數(shù)據(jù)平臺(tái)搭建與高性能計(jì)算最佳實(shí)踐》培訓(xùn)專(zhuān)家鐘老師指出:“IT部門(mén)認(rèn)為‘我已經(jīng)有服務(wù)器,我還可以買(mǎi)到便宜的服務(wù)器,我也有人員,所以我們不用花多少錢(qián)就可以構(gòu)建自己的Hadoop集群’,這當(dāng)然是一件好事,但是IT部門(mén)在部署時(shí)會(huì)發(fā)現(xiàn)這里會(huì)有很多他們沒(méi)有預(yù)料到的額外開(kāi)銷(xiāo)。”
鐘老師列舉了IT領(lǐng)導(dǎo)在DIY Hadoop集群時(shí)的5個(gè)常見(jiàn)問(wèn)題:
1.試圖以廉價(jià)的方式構(gòu)建Hadoop
很多IT部門(mén)不清楚Hadoop集群應(yīng)該完成什么使命(除了分析某些類(lèi)型的數(shù)據(jù)),所以他們會(huì)購(gòu)買(mǎi)盡可能便宜的服務(wù)器。
“Hadoop被認(rèn)為是可自愈的,所以當(dāng)服務(wù)器的一個(gè)節(jié)點(diǎn)出現(xiàn)故障,構(gòu)不成大問(wèn)題,”鐘老師稱(chēng),“但如果你購(gòu)買(mǎi)廉價(jià)的服務(wù)器,很多節(jié)點(diǎn)出現(xiàn)故障那么你就要花更多時(shí)間來(lái)修復(fù)硬件,如果一大堆節(jié)點(diǎn)都不運(yùn)行了,這就會(huì)造成大問(wèn)題。”
如果你的Hadoop集群只是實(shí)驗(yàn),那么以上這些可能不是問(wèn)題。然而,很多實(shí)驗(yàn)性項(xiàng)目通常最后都會(huì)進(jìn)入生產(chǎn)環(huán)境。IT部門(mén)認(rèn)為,“我們已經(jīng)投入了大量的時(shí)間,我們已經(jīng)做了很多工作,現(xiàn)在我們需要將其投入生產(chǎn),”鐘老師說(shuō)道,“在實(shí)驗(yàn)期間,如果環(huán)境出現(xiàn)問(wèn)題,只要重新啟動(dòng)即可,但在生產(chǎn)環(huán)境,集群需要能夠抵御硬件故障、人為交互故障以及任何可能發(fā)生的事情。”
2.太多“廚師”
大多數(shù)IT部門(mén)將自己分為軟件、硬件和網(wǎng)絡(luò)組,而Hadoop集群跨越了這些分組,所以DIY Hadoop集群最終會(huì)成為很多有說(shuō)服力的“廚師”的產(chǎn)物。所以最終,Hadoop集群不會(huì)按照預(yù)期那樣運(yùn)行。
在進(jìn)行故障排除后,系統(tǒng)應(yīng)該能夠啟動(dòng)以及讓IT運(yùn)營(yíng)人員在生產(chǎn)環(huán)境中運(yùn)行,但鐘老師稱(chēng):“這是另一個(gè)學(xué)習(xí)曲線開(kāi)始的地方,他們可能不熟悉Hadoop集群,你會(huì)看到很多人為錯(cuò)誤、停機(jī)時(shí)間等一系列問(wèn)題。”
3.沒(méi)有意識(shí)到Hadoop DIY項(xiàng)目的潛在風(fēng)險(xiǎn)
在Hadoop集群轉(zhuǎn)移到生產(chǎn)環(huán)境后,企業(yè)通常會(huì)發(fā)現(xiàn)他們需要安排專(zhuān)門(mén)的工作人員來(lái)保持其運(yùn)行。鐘老師稱(chēng):“當(dāng)然,工作人員的大部分時(shí)間花費(fèi)在維護(hù)上,而不是創(chuàng)新。”
他警告:“不能期望人們?cè)诤芏虝r(shí)間內(nèi)變成Hadoop專(zhuān)家。”即使你雇傭經(jīng)驗(yàn)豐富的工作人員,但I(xiàn)T環(huán)境差異性很大--DIY Hadoop集群組件也是如此。因此,在你特定環(huán)境中的所有配置、連接和相互關(guān)系都需要花時(shí)間來(lái)了解。
4. 他們低估了更新的復(fù)雜性和頻率
新版Hadoop每三個(gè)月發(fā)布一次,這些通常包含新特性、新功能、更新、漏洞修復(fù)等。
5. 他們沒(méi)有準(zhǔn)備好應(yīng)對(duì)安全挑戰(zhàn)
在Hadoop早期,安全沒(méi)有被視為一個(gè)大問(wèn)題,因?yàn)榧喝晕挥诜阑饓竺妗6F(xiàn)在,安全已經(jīng)成為最大的問(wèn)題。
目前Kerberos身份驗(yàn)證已經(jīng)內(nèi)置到Hadoop來(lái)解決這些問(wèn)題,但有些IT企業(yè)不知道如何處理此協(xié)議。且這方面的文檔非常少,最要命的是這涉及到安全管理員和IT其他團(tuán)隊(duì),這些人員幾乎是使用完全不同的語(yǔ)言。”
有些IT部門(mén)最終會(huì)與Cloudera、Hortonworks或其他第三方簽署合同以保護(hù)他們的DIY Hadoop集群。“這需要一些時(shí)間才能完成設(shè)置、測(cè)試等工作,”鐘老師稱(chēng),“然后每過(guò)三個(gè)月,你都需要重新做一次,以確保應(yīng)用和配置等一切的正常運(yùn)行。”