Hadoop雖然目前有點走下坡路,但依然是大數據的主流架構之一,實際上,盡管其出現和發展已經歷經多年,但很多人并不一定真正了解它。中培偉業《大數據平臺搭建與高性能計算最佳實戰》專家鐘老師在這里就有關Hadoop的11個真相進行了介紹,希望對大家進一步了解Hadoop有所幫助。
真相1:Hadoop是由多個產品組成的。
人們在談論Hadoop的時候,常常把它當做單一產品來看待,但真相上它由多個不同的產品共同組成。Hadoop是一系列開源產品的組合,這些產品都是Apache軟件基金會的項目。”
一提到Hadoop,人們往往將其與MapReduce放在一起,但其實HDFS和MapReduce一樣,也是Hadoop的基礎。
真相2:Apache Hadoop是開源技術,但專有廠商也提供Hadoop產品。
由于Hadoop屬于開源技術,可免費下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發行版本。
這些特別發行版本一般都會有一些附加特性,比如高級管理工具及相關的支持維護服務。有人可能對此嗤之以鼻:既然開源社區是免費的,那么我們為什么還要為它的服務付費?鐘老師解釋道,這些版本的HDFS對一些IT部門更合適,特別是企業IT系統已經相對成熟的用戶。
真相3:Hadoop是一個生態系統,而非一個產品。
Hadoop是由開源社區和各個廠商共同開發和推動的。具體說來,廠商的Hadoop的產品其結構化和關系性更強一些。
一直以來報表平臺、數據集成平臺在為更新的平臺提供各種各樣的接口,Hadoop當然也不例外。
真相4:HDFS是文件系統,而不是數據庫管理系統。
鐘老師最無法忍受的,就是人們常常把二者混為一談。能夠對數據集進行管理是數據管理系統很重要的特性之一,這一點HDFS是不具備的。
數據庫管理系統中,我們通過查詢索引可以實現對數據的隨機訪問,它往往處理的是結構化的數據,而在Hadoop中不會處理這樣的數據類型。
真相5:Hive與SQL類似,卻非標準SQL。
傳統獲取數據的業務工具大多都是基于SQL的,這比較讓人頭疼,因為Hadoop使用的是一種類似SQL但不是SQL的語言——Apache Hive和HiveQL。實際上兼容性只是一個短時間問題,但卻阻礙了Hadoop的普及。
真相6:Hadoop與MapReduce相互關聯,但不相互依賴。
MapReduce早在HDFS出現以前就由Google開發推出。除此之外,諸如MapR一類的廠商一直在宣傳MapReduce功能的多樣性,無需HDFS支持。
盡管如此,鐘老師卻認為它們具有很好的互補性。HDFS的大部分價值都體現在可層疊到分布式文件系統的工具上。
真相Hadoop的意義不僅僅在于數據量,更在于數據的多樣化。
有人把Hadoop歸類為海量數據處理技術,但是Hadoop真正的價值卻是對多樣化數據處理的能力。Hadoop的處理范圍為大多數數據倉庫所不及,比如針對半結構化與完全非結構化的數據。”
真相Hadoop是數據倉庫的補充,不是數據倉庫的替代品。
Hadoop對多樣化數據類型進行管理的能力使得“數據倉庫將死”的言論四起,但真相是數據倉庫在其領域中的性能仍然出色,Hadoop可起到對數據倉庫技術進行補充的作用。數據倉庫和其他系統的架構越來越多地開始向分布式靠攏,Hadoop在這里將發揮其作用。
真相Hadoop不僅僅是Web分析。
Hadoop在互聯網中的運用非常普遍,不過Hadoop普及趨勢的部分原因是因為它可以處理更多類型的分析。
真相:大數據不一定非Hadoop不可。
別看現在大數據和Hadoop已經密不可分,鐘老師卻認為Hadoop并不是大數據的“唯一”。他提到了許多其他廠商的產品,如Teradata、Sybase IQ(被SAP收購)和Vertica(被HP收購)等。
除此之外,在Hadoop沒有誕生之時,一些企業就已經開始研究大數據了。例如,電信行業多年以前就有呼叫明細記錄。
真相Hadoop不是“免費午餐”。
雖然Hadoop屬于開源技術,但是軟件的安裝部署是需要花錢的。鐘老師稱,由于Hadoop在管理工具與支持服務方面的不足,企業在使用過程中很容易產生額外費用。另外,由于它沒有優化程序,我們只能請專業人士在運行環境中手寫輸入代碼,而這些專業人士的薪酬價碼都不菲。