當(dāng)今的大數(shù)據(jù)不僅僅是外行人嚴(yán)重的時(shí)髦名詞,更是專業(yè)領(lǐng)域當(dāng)中的一個(gè)創(chuàng)造時(shí)代的技術(shù)和資源。對(duì)世界各國來說,大數(shù)據(jù)帶來的意義將是戰(zhàn)略性的,這也是很多國家的政府獎(jiǎng)大數(shù)據(jù)作為戰(zhàn)略資源的重要原因。中培偉業(yè)《大數(shù)據(jù)分析與可視化》培訓(xùn)專家謝老師認(rèn)為,當(dāng)前的大數(shù)據(jù)存在四大特征:
特征一:數(shù)據(jù)體量巨大(Volume)。
有科學(xué)家計(jì)算過:目前互聯(lián)網(wǎng)一天所產(chǎn)生的信息,一天大概能發(fā)出2940億件郵件、200萬個(gè)帖子,這些信息用來制作DVD的話,可以制作1.68億張。不過隨著云計(jì)算和移動(dòng)互聯(lián)網(wǎng)越來越普及,互聯(lián)網(wǎng)所能生產(chǎn)的信息也快速增長中。
人們通常將10TB以上的數(shù)據(jù)量稱為大數(shù)據(jù),不過企業(yè)通常將各類數(shù)據(jù)集混合在一起,因而會(huì)有產(chǎn)生以PB為單位的數(shù)據(jù)量。1PB相當(dāng)于2091500G的計(jì)算機(jī)容量。如圖。而有些大型企業(yè)的數(shù)據(jù)量可能接近或者超過EB量。
現(xiàn)在介紹下最小的數(shù)據(jù)單位,即字節(jié),個(gè)二進(jìn)制位就是一個(gè)字節(jié)。數(shù)據(jù)單位常見有KBMBGBTBPBEBZBYBBB等,我們最為熟悉的可能是GBKB,尤其是手機(jī)移動(dòng)流量多少,通常會(huì)用這兩個(gè)單位來表示。按照這些排列的順序,兩個(gè)不同的單位,后者都是前者的1024倍,從我們目前常用的GB和絕大多數(shù)人所知道的最大內(nèi)存大為TB來看,我們就可以看到當(dāng)今的大數(shù)據(jù)的體量達(dá)到了何種程度。
特征二:數(shù)據(jù)類型繁多(Variety)。
隨著大數(shù)據(jù)的不斷發(fā)展,大數(shù)據(jù)的種類和格式越來越豐富,而且越來越難以處理。以往,大多數(shù)據(jù)可以以文本的方式存儲(chǔ)起來,這類數(shù)據(jù)被稱為是結(jié)構(gòu)化數(shù)據(jù)。而如今非結(jié)構(gòu)化的數(shù)據(jù)逐漸增多,如視頻、音頻、電子郵件、地理位置信息、圖片等。
特征三:價(jià)值密度低(Value)。
密度定律告訴我們,當(dāng)物體質(zhì)量一定時(shí),其體積越大則密度越小。而在大數(shù)據(jù)中,大數(shù)據(jù)所創(chuàng)造的價(jià)值密度與數(shù)據(jù)總量是成反比的,當(dāng)然,物體密度是一定的,不隨著物體質(zhì)量、物體體積變化而變化。
以監(jiān)視視頻為例,在長達(dá)兩小時(shí)的視頻內(nèi)容中,有價(jià)值的數(shù)據(jù)可能只存在三四秒的時(shí)間。而大數(shù)據(jù)運(yùn)用就是將這些有價(jià)值的信息挖掘出來,進(jìn)行“提純”。
價(jià)值密度低導(dǎo)致數(shù)據(jù)分析專家的工作量大為增加,他們不得不收集可能多的數(shù)據(jù),以免錯(cuò)過有用信息。價(jià)值密度低,不代表大數(shù)據(jù)本身的價(jià)值低,事實(shí)上,大數(shù)據(jù)具有非常高的價(jià)值,且對(duì)各領(lǐng)域產(chǎn)生深遠(yuǎn)而持久的影響。
特征四:處理速度快(Velocity)。
如果沒有較快的處理速度,人們便無法發(fā)揮大數(shù)據(jù)的作用,這就像一個(gè)人面對(duì)著幾十桌美味佳肴,但他再怎么吃,也吃不完。而根據(jù)研究發(fā)現(xiàn),目前全球數(shù)據(jù)量增長速度遠(yuǎn)遠(yuǎn)超過計(jì)算機(jī)處理速度的增長,更是遠(yuǎn)遠(yuǎn)超過人大腦信息的處理能力的增長。
在正常的傳輸渠道下,如果要存儲(chǔ)并分析1PB的數(shù)據(jù),網(wǎng)速設(shè)為1G/s,計(jì)算機(jī)即使24日夜不停地運(yùn)行,要將數(shù)據(jù)存入電腦中也得需要十多天,由此可知,速度的重要性。企業(yè)每天都產(chǎn)生巨額數(shù)據(jù),如果在24小時(shí)里無法存儲(chǔ)完畢,將不可避免地導(dǎo)致一些信息被浪費(fèi)掉。
具專業(yè)機(jī)構(gòu)的分析報(bào)告指出,預(yù)測到2020年,全球數(shù)據(jù)量將達(dá)到讓人震驚的體量,如果沒有相應(yīng)的速度來應(yīng)對(duì),那簡直就是一場災(zāi)難。如果處理不好自己的大數(shù)據(jù),企業(yè)也將無法從大數(shù)據(jù)中獲得任何好處。
云計(jì)算的誕生為大數(shù)據(jù)處理的速度插上了騰飛的翅膀,現(xiàn)在一個(gè)2G的電影可能不到一秒鐘就傳輸完畢,即使是1PB的數(shù)據(jù)量,20分鐘內(nèi)也可以傳輸完畢。
大數(shù)據(jù)呈現(xiàn)的這四大特征,能夠幫組我們更好地了解大數(shù)據(jù),最終運(yùn)用大數(shù)據(jù),這些特征也是人們檢驗(yàn)一個(gè)數(shù)據(jù)集合是否為大數(shù)據(jù)的重要手段。