12.2.2 非結構化數據處理系統
隨著互聯網的逐步發展,數據每天都在以驚人的速度增長,信息的種類也在不斷地擴展。IBM公司的研究部門調查發現,全球大多數的信息是非結構化的,包括紙上的文件、報告、視頻文件、音頻文件、照片、傳真件、信件等。由于內容的表現形式存在多樣性,人們在對其進行管理和利用方面耗費了大量時間,所以迫切需要有效地將非結構化數據管理起來。
傳統數據倉庫以銀行結構化數據為主,進行異構數據的整合、加工,進而提供服務。在大數據時代下,新興的數據類型不斷涌現,更多地呈現出一種非結構化的狀態,傳統關系型的數據倉庫難以滿足此類數據的存儲及分析需求,因此涌現出了Hadoop、Spark等新型分布式數據庫,相應地,單純的數據倉庫服務體系架構也逐漸向大數據服務體系架構演變。各銀行紛紛啟動面向海量非結構化數據的數據加工處理與分析系統的建設,并注重傳統銀行數據與新興互聯網金融數據的綜合運用。
銀行經營過程中產生和使用的數據主要分布于數據源系統、數據集成系統、分析型系統三類系統中。隨著網絡技術的發展、商業銀行的業務發展以及客戶接觸渠道的多樣化,銀行的數據種類和數據量劇增,銀行存儲的客戶數據、交易數據等結構化數據,以及電話語音、微博、即時通信等非結構化、半結構化數據都在飛速膨脹,尤其后者的增長速度遠遠大于前者。在強調數據即是價值的今天,任何一份數據都是銀行珍貴的資產。為了一點金子,需要保存全部沙子,又如何從沙子里找出這一點金子?這些都是擺在商業銀行前面的問題。大數據加工處理技術則很好地解決了這些問題。