何為大數(shù)據(jù)?
“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。個人覺得很貼切,“新處理模式”是一個很關(guān)鍵的詞匯,這也是我所理解的“大數(shù)據(jù)”區(qū)別于傳統(tǒng)統(tǒng)計(jì)分析等最關(guān)鍵的特征之一。這個所謂的“新處理模式”有兩層含義:
A.由于海量的數(shù)據(jù),需要更高效的存儲和處理技術(shù),Hadoop成為了大數(shù)據(jù)時代的標(biāo)志;
B.如果你認(rèn)為大數(shù)據(jù)就等于Hadoop,那就大錯特錯了。Hadoop只是大數(shù)據(jù)時代的一個必要條件,大數(shù)據(jù)還有一個明顯的標(biāo)志是數(shù)據(jù)挖掘和人工智能的緊密結(jié)合。這也是我理解的“大數(shù)據(jù)”與現(xiàn)在很多所謂“大數(shù)據(jù)”項(xiàng)目最明顯的區(qū)別之一。
下面就來說說,很多人眼里的大數(shù)據(jù)誤區(qū):
1、大數(shù)據(jù)是萬能的
大數(shù)據(jù)顯然不是萬能的。正因?yàn)槿绱?,她才真?shí)。大數(shù)據(jù)在有些領(lǐng)域由于種種原因,所帶來的價值并不如預(yù)期的那么高。導(dǎo)致這種現(xiàn)象最主要的問題有兩個,一個是由于數(shù)據(jù)本身的質(zhì)量或者數(shù)量不夠;另一個是算法不合適。
不要以為是海量數(shù)據(jù)就一定會有價值,在過往的工作中,我們經(jīng)常發(fā)現(xiàn)來自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無用的。只有10%-20%的數(shù)據(jù)才會產(chǎn)生一定的價值。這就又讓我想到Marry Meeker打的那個比喻,“大數(shù)據(jù)的工作就像在一堆稻草中尋找一根針”。
2、大數(shù)據(jù)是靈丹妙藥
大數(shù)據(jù)不是企業(yè)的靈丹妙藥。確實(shí),訪問更多的信息,特別是關(guān)于你的客戶的行為的信息,將會對某些業(yè)務(wù)提供競爭優(yōu)勢, 就像互聯(lián)網(wǎng)。然而, 在許多情況下, 相對未分化的互聯(lián)網(wǎng)和網(wǎng)絡(luò)功能并未導(dǎo)致很大的業(yè)務(wù)增長, 建立的預(yù)測分析也是如此。相反, 更好的數(shù)據(jù)管理和分析是幫助企業(yè)做出更好決策的工具。就算“小數(shù)據(jù)”也可以為中小企業(yè)很好的利用在投資的路線圖上,構(gòu)建和多樣化而無需有大型的IT投資。
3、只有大公司需要預(yù)測分析
雖然亞馬遜、Target、沃爾瑪、Zipcar和其他大型企業(yè)是預(yù)測分析(尤其是客戶分析)早期的采用者和重要受益者,各種形式和規(guī)模的企業(yè)都將受益于智能分析帶來的好處。例如,基于群體客戶剖析和行為的分析客戶保留模式,然后使用上述數(shù)據(jù)來設(shè)計(jì)針對性推廣工作,對任何企業(yè)可以產(chǎn)生立即的影響。
以上就是關(guān)于大數(shù)據(jù)的幾個誤區(qū)了,其實(shí)不僅僅是只有這幾點(diǎn),很多人對大數(shù)據(jù)都不夠了解,想要進(jìn)行大數(shù)據(jù)行業(yè),就要多多了解。