在過去的幾年里,人們從知道大數據的概念,發展到一些組織能夠真正實施一些大數據項目。然而,在一些組織的數據中心團隊負責實施這些業務驅動的舉措之后,現在才開始認識到實現真正大數據集成的復雜性和深度。
大數據通過人們生活,工作平臺,應用程序,以及設備提供了多種格式的大量的數據。大量的結構化和非結構化的內容往往使用戶非常難以訪問和分析所需的信息。
現代數據中心往往是一個復雜的系統,相互連接的服務器和設備存儲,處理和分發各種來源的大量信息。但智能大數據整合,在改造傳統的信息系統,可以緩解從地理位置分散的網站,甚至其他數據中心的聚集和分析信息的斗爭。
如果一個數據中心是一個組織的大腦,那么可以認為其數據源就是反饋給神經和細胞的信息。智能大數據集成意味著該組織的“神經系統”,為整個企業快速傳達信息,為現代商業生態系統起著至關重要的作用。但這也意味著數據中心的管理人員將獲得他們尋求的準確和高效的數據處理的安全性,質量,控制和管理。
從哪里開始
任何大數據項目的目的是為了獲得更好的結果,其中包括直接進行實時洞察和基于循環模式的長期觀點,但首先你必須克服早期的集成挑戰。所以要問你自己:
· 你所有的關鍵數據來自哪里?
· 你的組織如何聚合并快速移動所有的數據?
· 如何分析可用的數據是否有價值?
· 通過在技術和基礎設施方面的投資,你的企業如何才能最大限度地發揮價值?
最終,大數據整合攝入,準備和提供的數據,不管是什么來源。這包括利用在企業每一類型的數據,包括復雜的,往往是非結構化的機器產生的數據,這通常需要一個更加融合的數據中心的基礎設施。
因此,第一步驟,可以說是最重要的一步,是整合所有可用的數據。以下是確定你的大數據集成項目有效實施的三個關鍵領域。
(1)可靠的數據流
攝入大數據到一個平臺,像ApacheHadoop這樣的平臺是不夠智能的,不足以啟動一個Hadoop集群,輸入所有類型的數據,并得出具有突破性的新見解,展現自己。大數據行業廠商似乎每一個星期都在發布新的工具和升級版本,甚至將某一技術引入到你的堆棧,雖然功能并不強大,但卻可以使你的整個平臺過時。
這是常見的企業應用程序和集群之間的經驗數據流和數據退化問題。因此,大多數反應涉及手工編碼正在嘗試努力工作,并拋棄一些其他類型的技術。通常情況下,這是一個解決方案。但這不是最終的解決辦法。
采用一個安全的,敏捷的集成平臺,專注于調動實際的數據流進出數據中心的管道,確保在越來越復雜的工作場所的生態系統進行可靠的信息交換。
(2)可擴展性
目前存在一些主要的整合,治理和安全問題,需要針對不同層次的大數據采取不同的舉措,特別是在數據中心。我們今天正在經營業務在其規模和信息方面日益龐大,這使得數據成為“大數據”。而人們需要跨越地域和傳統的數據中心來管理大數據,那些過時陳舊的工具已經嚴重低估了現代需求。
隨著企業的發展和新的數據源開始發揮作用,需要增加不同的技術,你的系統將無一例外地必須適應。如果你將現在的問題通過手工編碼解決,當你試圖擴展之后,會不會在擁有它以后拋棄它?
簡單地增加更多的工作人員或代碼的問題并不是一個可擴展的策略,也不會解決復雜的大數據傳輸問題。需要有一個堅實的數據集成和管理平臺下的商業智能工具,可以輕松地擴展,采用眾多的大數據工具,并且其來源而不中斷。
(3)數據質量,分類,治理
而從結構化數據出來的CRM和ERP應用程序通常很好地進行企業的分析,但它是非結構化的數據,更加難以管理。企業必須以某種方式治理信息混亂,因為即使是最小的數據質量的問題也會產生巨大的錯誤。成功的公司在元數據級別上做到這一點。
通過元數據定義信息是至關重要的,因為它提供了來自大數據的結構,幫助進行分類和整理這些信息以后可以輕松找到。當信息流動到你的數據湖,必須進行某種分類,因此你正在做分析的數據實際上是準確的。
企業在錯誤的數據方面浪費了一些技術周期,特別是昂貴的今天。所有這些質量和分類必須在某一點上進行,但它應該在早期的水平,即使在集成周期。企業認為在數據質量的早期可以得到更好的,更有價值的分析。
總結:
每一個組織都會成為一個數據組織,或是被甩在后面。是什么使一個公司可以獨有他們的數據,并更好地使用數據。因此,一個成功的大數據項目最終取決于一個組織的捉捕其數據的能力。
快速攝入和處理的大數據,需要一個可靠的集成基礎設施,可以很容易地擴展以容納大量的數據量,驅動實時訪問,并支持每一個請求分析。利用信息,以獲得競爭優勢,這聽起來很偉大,但只有可靠準確地集成了所有的數據源之后,才能建立一個可用的數據湖。
當正確的信息傳遞給正確的人,所以可以理解并采取行動最大限度地提高大數據整合的價值。但是,只有當企業支持提供了大數據下的投資和可靠的集成平臺,他們將獲得每個企業都在尋求大數據的最佳回報。