大概在 2005 年前后,Hadoop 誕生后,標(biāo)志著人類正式進(jìn)入大數(shù)據(jù)時(shí)代。
其實(shí)," 大數(shù)據(jù) " 概念第一次被提出,可以追溯到 1998 年,一家美國(guó)高性能計(jì)算公司的科學(xué)家,在一次國(guó)際會(huì)議報(bào)告中,用 "Big Data" ( 大數(shù)據(jù) ) 來描述數(shù)據(jù)量增長(zhǎng)帶來的挑戰(zhàn)。
到了 2013 年,開始有越來越多的企業(yè)看到大數(shù)據(jù)的價(jià)值,發(fā)現(xiàn)大數(shù)據(jù)能夠?yàn)槠髽I(yè)業(yè)務(wù)賦能,通過對(duì)海量數(shù)據(jù)量的有效存儲(chǔ)、管理和分析,可以獲得更實(shí)時(shí)的市場(chǎng)洞察力。并且,人們還發(fā)現(xiàn),大數(shù)據(jù)不是一個(gè)單一的技術(shù),而是一系列數(shù)據(jù)管理技術(shù)的集合體,它對(duì)整個(gè)社會(huì)及人類帶來的影響,將有別于以往任何技術(shù)變革。
那么,十幾年時(shí)間過去了,今天的大數(shù)據(jù)發(fā)展到何種狀態(tài)?我們需要做些什么,才能讓大數(shù)據(jù)應(yīng)用變得更加成熟?
從各種應(yīng)用分析和調(diào)查來看,雖然企業(yè)的數(shù)據(jù)量呈爆發(fā)趨勢(shì)增長(zhǎng),也更重視信息的來源和使用價(jià)值,但在實(shí)際的商業(yè)價(jià)值推動(dòng)上,并沒有帶來顯著成果。雖然大數(shù)據(jù)概念炒得很火熱,但應(yīng)用上仍停留在如何將正確的信息在正確的時(shí)間發(fā)送給正確的人。
數(shù)據(jù)倉(cāng)庫(kù) vs 數(shù)據(jù)湖 vs 數(shù)據(jù)管理架構(gòu)
為了收集、獲取海量數(shù)據(jù),各種數(shù)據(jù)存儲(chǔ)和管理系統(tǒng)如雨后春筍般誕生,包括數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)管理架構(gòu)等,開始加快走向企業(yè)應(yīng)用場(chǎng)景中。
只是,當(dāng)企業(yè)的解決方案以及平臺(tái)架構(gòu)開始增多,業(yè)務(wù)的復(fù)雜性也隨之增加,企業(yè)需要一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)管理架構(gòu),去整合所有的數(shù)據(jù)以及多樣的應(yīng)用工具,包括能實(shí)現(xiàn)跨環(huán)境以及混合應(yīng)用的管理。以往集中式架構(gòu),已經(jīng)不能滿足企業(yè)的業(yè)務(wù)需求了?;蛘哒f,企業(yè)需要更強(qiáng)大的數(shù)據(jù)分析能力,能對(duì)不同的數(shù)據(jù)源進(jìn)行訪問。這也是以 Data Fabric 為核心的數(shù)據(jù)管理架構(gòu),變得越來越流行的最根本原因。
理論上講,企業(yè)需要一個(gè)核心數(shù)據(jù)庫(kù),能確保所有的數(shù)據(jù)都是最新、易管理,并且是干凈數(shù)據(jù);但之前的數(shù)據(jù)架構(gòu)模式不可能實(shí)現(xiàn),而 Data Fabric 則能幫助企業(yè)實(shí)現(xiàn)不同數(shù)據(jù)的管理,并且能把各種數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)起來,而不是將所有的數(shù)據(jù)傾倒在一個(gè)數(shù)據(jù)湖中。
所以,在數(shù)據(jù)的整個(gè)治理過程中,所有相關(guān)的應(yīng)用都很重要。比如:我們可以通過數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)高性能、可重復(fù)的分析;而數(shù)據(jù)湖可以存儲(chǔ)用于開發(fā)和測(cè)試的數(shù)據(jù);Data Mesh 這種基于領(lǐng)域驅(qū)動(dòng)和自服務(wù)的數(shù)據(jù)架構(gòu)設(shè)計(jì)模式,可以用來管理分布式數(shù)據(jù),因?yàn)樵摲?wù)本身借鑒了微服務(wù)和 Service Mesh 分布式架構(gòu)思想。提到 Data Mesh,有人可能要問 Data Mesh 和 Data Fabric 是什么關(guān)系?其實(shí),Data Mesh 和 Data Fabric 在概念上都差不多,都是一種新型的數(shù)據(jù)管理架構(gòu),都致力于讓數(shù)據(jù)互聯(lián)互通。
一站式大數(shù)據(jù)平臺(tái)構(gòu)建
當(dāng)企業(yè)業(yè)務(wù)上升到一定量,構(gòu)建大數(shù)據(jù)平臺(tái)成為必須品。問題是,大數(shù)據(jù)平臺(tái)如何構(gòu)建?不同企業(yè)有不同選擇!
有專家建議,好采用兩種策略構(gòu)建企業(yè)大數(shù)據(jù)平臺(tái),即一個(gè)用于生產(chǎn),另一個(gè)用于分析。但筆者認(rèn)為,基于一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)架構(gòu)構(gòu)建大數(shù)據(jù)平臺(tái),更有利于數(shù)據(jù)管理。如果每個(gè)業(yè)務(wù)部門都建自己的平臺(tái),需要支持多個(gè)數(shù)據(jù)庫(kù),還得需要一個(gè) ETL 平臺(tái)完成數(shù)據(jù)之間的轉(zhuǎn)換。這時(shí),數(shù)據(jù)的真實(shí)性、實(shí)時(shí)性都會(huì)出現(xiàn)挑戰(zhàn)。構(gòu)建大數(shù)據(jù)平臺(tái),最終的目標(biāo)是為了整合數(shù)據(jù),讓所有的數(shù)據(jù)實(shí)現(xiàn)可視化管理,并且無(wú)論數(shù)據(jù)在企業(yè)內(nèi)部還是云端,都能實(shí)現(xiàn)統(tǒng)一管理。多一個(gè)數(shù)據(jù)平臺(tái),就意味著企業(yè)在進(jìn)行數(shù)據(jù)整合時(shí),會(huì)增加額外的成本,并且容易出現(xiàn)數(shù)據(jù)安全隱患。
當(dāng)然,構(gòu)建一個(gè)能覆蓋所有環(huán)境的大數(shù)據(jù)平臺(tái),也不是一件容易的事。大多數(shù)時(shí)候,一個(gè)供應(yīng)商的解決方案也沒那么全面,比如:有的提供了查詢功能,但治理方面差了一些;有的雖然解決了大數(shù)據(jù)的規(guī)?;幚?,但后期的數(shù)據(jù)遷移成為一大挑戰(zhàn)。所以,企業(yè)擁有多個(gè)企業(yè)提供的數(shù)據(jù)管理解決方案,可能是一種常態(tài)。
如果企業(yè)選型選對(duì),基于標(biāo)準(zhǔn)的數(shù)據(jù)架構(gòu)來打造打造大數(shù)據(jù)平臺(tái),那意味企業(yè)擁有了先天的一站式大數(shù)據(jù)平臺(tái)管理能力,后期可以通過各種工具和手段進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化管理。
比如:基于 Data Fabric,企業(yè)從設(shè)計(jì)之初開始,就擁有了一個(gè)可靈活擴(kuò)展、多次復(fù)用和持續(xù)優(yōu)化的數(shù)據(jù)管道,技術(shù)開發(fā)人員可以根據(jù)服務(wù)和語(yǔ)義,支持復(fù)雜環(huán)境部署,通過資源的靈活調(diào)度,交付各種應(yīng)用。