大(da)數(shu)據(ju)之(zhi)“大(da)”的(de)三(san)個(ge)(ge)含(han)義(yi) 很(hen)幸(xing)運,我不(bu)是紙上談(tan)兵(bing)。在重讀(du)Big Data之(zhi)前,我的(de)團(tuan)隊在最(zui)近(jin)一個(ge)(ge)項目(mu)中,通(tong)過(guo)Spark MLlib的(de)機器學習(xi),對近(jin)10年的(de)用戶數(shu)據(ju)進行了(le)初步(bu)處理,消(xiao)費(fei)目(mu)標預測正確率(lv)達到(dao)了(le)75%。這個(ge)(ge)項目(mu)充(chong)分(fen)證(zheng)明了(le)大(da)數(shu)據(ju)的(de)實際(ji)效益。下(xia)面我們來(lai)看看“大(da)”的(de)三(san)個(ge)(ge)具體含(han)義(yi)分(fen)別(bie)是什么吧。
一、更(geng)多(More) “更(geng)多”的(de)含義是(shi)“樣(yang)本(ben)=總體”,即大數(shu)(shu)據(ju)(ju)(ju)分(fen)析取代(dai)樣(yang)本(ben)分(fen)析。書中(zhong)不僅(jin)給(gei)出了Xoom跨境匯款異常交(jiao)易(yi)報警(jing)案例,也給(gei)出了喬布(bu)斯(si)通過DNA排序治(zhi)療(liao)癌癥的(de)例子(zi)。后者例子(zi)中(zhong),喬布(bu)斯(si)得到(dao)了整個(ge)基因密碼(ma)的(de)數(shu)(shu)據(ju)(ju)(ju),根據(ju)(ju)(ju)基因突變(bian)不同排列,醫(yi)生遍歷嘗試各(ge)種(zhong)用藥(yao),將(jiang)他的(de)生命延長了好幾年。理論上,如果計算能力足夠(gou)強,用藥(yao)足夠(gou)及時,大數(shu)(shu)據(ju)(ju)(ju)分(fen)析治(zhi)療(liao)取代(dai)DNA樣(yang)本(ben)治(zhi)療(liao)是(shi)可以戰(zhan)勝(sheng)癌癥的(de)。
二(er)、更(geng)雜(Messy) “更(geng)雜”的(de)含義是(shi)“大數據(ju)的(de)簡(jian)單(dan)算法(fa)比(bi)(bi)小數據(ju)的(de)復(fu)雜算法(fa)更(geng)有效”。在研發計算機翻(fan)譯系統時,IBM使用(yong)傳統統計學方(fang)法(fa)對(dui)英法(fa)兩(liang)種(zhong)語(yu)(yu)言進(jin)(jin)行翻(fan)譯,而(er)Google使用(yong)60多種(zhong)語(yu)(yu)言的(de)海(hai)量級語(yu)(yu)料庫(ku)進(jin)(jin)行翻(fan)譯,這兩(liang)種(zhong)方(fang)法(fa)形成了(le)鮮明的(de)對(dui)比(bi)(bi)。 Google的(de)翻(fan)譯質量之所以更(geng)好不是(shi)因為復(fu)雜算法(fa),而(er)是(shi)更(geng)雜更(geng)多的(de)數據(ju)。

三(san)、更(geng)(geng)(geng)(geng)(geng)好(Correlation) “更(geng)(geng)(geng)(geng)(geng)好”的(de)(de)含義(yi)是“知(zhi)(zhi)道(dao)相關關系(xi)(xi)(是什(shen)(shen)么)就(jiu)夠了,沒(mei)(mei)必要,或者可以晚一(yi)些(xie),知(zhi)(zhi)道(dao)因(yin)果(guo)關系(xi)(xi)(為(wei)什(shen)(shen)么)”。例如書中提(ti)到的(de)(de)沃爾(er)瑪把(ba)草莓(mei)味蛋撻與(yu)颶風用品擺一(yi)起賣銷量(liang)就(jiu)大(da),然而(er)一(yi)直沒(mei)(mei)搞明白其因(yin)果(guo)關系(xi)(xi)。另外,在Kaggle二手車質量(liang)預測(ce)例子中,相關關系(xi)(xi)分析(xi)表(biao)明,橙色車質量(liang)問題是其他顏色的(de)(de)一(yi)半(ban),也很難(nan)用因(yin)果(guo)分析(xi),甚至過(guo)度的(de)(de)研(yan)究因(yin)果(guo)關系(xi)(xi)有可能把(ba)一(yi)些(xie)視角蒙蔽掉。 在剛才提(ti)到的(de)(de)我的(de)(de)實際案例Spark MLlib大(da)數(shu)(shu)據分析(xi)過(guo)程中,使用了近10年消(xiao)(xiao)費(fei)者總體(ti)數(shu)(shu)據作為(wei)輸入(ru),而(er)不是個(ge)別樣本(更(geng)(geng)(geng)(geng)(geng)多(duo)),盡量(liang)保持(chi)原(yuan)始消(xiao)(xiao)費(fei)者數(shu)(shu)據不變(bian),沒(mei)(mei)有過(guo)多(duo)的(de)(de)清(qing)洗(更(geng)(geng)(geng)(geng)(geng)雜(za)),只(zhi)關注消(xiao)(xiao)費(fei)者購(gou)買目標(biao)預測(ce),不過(guo)多(duo)分析(xi)其中原(yuan)因(yin)(更(geng)(geng)(geng)(geng)(geng)好)。大(da)數(shu)(shu)據之“大(da)”的(de)(de)三(san)個(ge)含義(yi),更(geng)(geng)(geng)(geng)(geng)多(duo)、更(geng)(geng)(geng)(geng)(geng)雜(za)、更(geng)(geng)(geng)(geng)(geng)好,得到了充分的(de)(de)實踐證(zheng)實。 2 大(da)數(shu)(shu)據對(dui)商(shang)業模(mo)式的(de)(de)影響 眾所周知(zhi)(zhi),BAT中的(de)(de)阿里巴(ba)巴(ba)招募了幾千(qian)位數(shu)(shu)據研(yan)發工程師,數(shu)(shu)據分析(xi)師,數(shu)(shu)據挖掘工程師。作為(wei)電子商(shang)務的(de)(de)先鋒,他們(men)的(de)(de)數(shu)(shu)據工程師們(men)都在具體(ti)干(gan)什(shen)(shen)么呢?
四、量化(hua)(hua)(Datafication) 量化(hua)(hua)也叫做數據化(hua)(hua),就是把IT信(xin)息技術(shu)變革(ge)的(de)(de)重(zhong)點從現在的(de)(de)“T”上,聚焦到(dao)“I”上。原書作(zuo)者從1839年的(de)(de)美國海(hai)(hai)軍(jun)軍(jun)官莫里Maury數據化(hua)(hua)航海(hai)(hai)數據說(shuo)起,一(yi)直到(dao)現代(dai)的(de)(de)Google數字圖書館,處處都體現了(le)數據化(hua)(hua)帶給整(zheng)個商(shang)業模式(shi)的(de)(de)重(zhong)大影響(xiang)。現實中,阿里的(de)(de)工程師們(men)(men)也在量化(hua)(hua)一(yi)切,涵蓋了(le)我們(men)(men)消(xiao)費者購買的(de)(de)商(shang)品、消(xiao)費方位(wei)、和(he)商(shang)家(jia)的(de)(de)溝通數據等海(hai)(hai)量信(xin)息。
五、價(jia)值(zhi)(Value) 這個價(jia)值(zhi)更多(duo)(duo)的(de)是說通過數(shu)(shu)據(ju)挖掘產生的(de)增值(zhi)(Value-added)。很(hen)多(duo)(duo)時候(hou),我們面對數(shu)(shu)據(ju),就像書(shu)(shu)中說的(de)一(yi)樣(yang),“就像魚不知道(dao)自己是濕(shi)的(de)一(yi)樣(yang)”,很(hen)形象(xiang)的(de)說出了(le)我們對身邊信息的(de)無(wu)知。所以書(shu)(shu)中詳(xiang)細解(jie)讀了(le)數(shu)(shu)據(ju)創新中的(de)數(shu)(shu)據(ju)再利用(yong)、重組、可擴展、開(kai)放(fang)等大數(shu)(shu)據(ju)處理工(gong)具和方法。
六、角(jiao)色定(ding)位(Implications) 大(da)(da)數(shu)(shu)據(ju)對(dui)現代商(shang)(shang)業(ye)的(de)(de)(de)(de)(de)(de)影(ying)響(Implications)就是商(shang)(shang)業(ye)價值鏈中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)角(jiao)色重定(ding)位。有三(san)種大(da)(da)數(shu)(shu)據(ju)公(gong)司(si):基(ji)于數(shu)(shu)據(ju)本身的(de)(de)(de)(de)(de)(de)公(gong)司(si)(例(li)如(ru)(ru),Google收購(gou)的(de)(de)(de)(de)(de)(de)ITA Software、阿里收購(gou)的(de)(de)(de)(de)(de)(de)高德地(di)圖等)、基(ji)于技(ji)能的(de)(de)(de)(de)(de)(de)公(gong)司(si)(例(li)如(ru)(ru),幫助沃(wo)爾(er)瑪獲(huo)得(de)營銷點(dian)子的(de)(de)(de)(de)(de)(de)大(da)(da)數(shu)(shu)據(ju)技(ji)術(shu)提(ti)供商(shang)(shang)Teradata)、基(ji)于思維的(de)(de)(de)(de)(de)(de)公(gong)司(si)(例(li)如(ru)(ru),預測(ce)航班晚點(dian)的(de)(de)(de)(de)(de)(de)FlightCaster)。當(dang)然有一些(xie)巨無霸公(gong)司(si)就三(san)個角(jiao)色都兼備了(le),例(li)如(ru)(ru)Google、Amazon,以(yi)及(ji)我們(men)經常說的(de)(de)(de)(de)(de)(de)BAT。 在(zai)新(xin)的(de)(de)(de)(de)(de)(de)商(shang)(shang)業(ye)模(mo)式中(zhong)(zhong),隨著大(da)(da)數(shu)(shu)據(ju)Big Data能夠越(yue)來越(yue)精確地(di)預測(ce)世界的(de)(de)(de)(de)(de)(de)事情,我們(men)除(chu)了(le)關注傳統(tong)的(de)(de)(de)(de)(de)(de)土地(di)、勞動力(li)、資本等生產(chan)要素外,必須(xu)重視大(da)(da)數(shu)(shu)據(ju)Big Data這個要素,否則就可能真成(cheng)了(le)上面說的(de)(de)(de)(de)(de)(de)“那條魚(yu)”了(le)。 3 大(da)(da)數(shu)(shu)據(ju)對(dui)管(guan)理(li)理(li)念的(de)(de)(de)(de)(de)(de)影(ying)響 書中(zhong)(zhong)提(ti)到(dao)的(de)(de)(de)(de)(de)(de)管(guan)理(li)更多(duo)的(de)(de)(de)(de)(de)(de)是指社會管(guan)理(li),但是,作(zuo)為一個技(ji)術(shu)產(chan)品管(guan)理(li)的(de)(de)(de)(de)(de)(de)公(gong)眾號,我們(men)也希望讀(du)者能在(zai)其中(zhong)(zhong)悟(wu)到(dao)一些(xie)技(ji)術(shu)產(chan)品團(tuan)隊管(guan)理(li)的(de)(de)(de)(de)(de)(de)道理(li),尤其注意掌控(Control)和創新(xin)(Innovation)之間的(de)(de)(de)(de)(de)(de)平(ping)衡。防止(zhi)過于量化,讓(rang)團(tuan)隊失去創新(xin)的(de)(de)(de)(de)(de)(de)活力(li)。
七、風(feng)險(xian)(Risks) 風(feng)險(xian)指兩個方面,一是(shi)大數(shu)據會帶(dai)來隱私(si)的威(wei)脅;二是(shi)數(shu)據源的低質量和分(fen)析方法(fa)的錯誤可能導致數(shu)據的濫用和誤用。作者引用了(le)美國國防部(bu)長Robert McNamara在越(yue)戰中執迷數(shu)據的例子,過(guo)于依賴電子表格去了(le)解戰場上發生(sheng)了(le)什么,從而導致了(le)指揮僵化(hua)問(wen)題。
八、掌控(Control) 掌控就(jiu)是(shi)指人(ren)類使用各(ge)種(zhong)方(fang)法(fa)(fa)積極主(zhu)動應(ying)對大數(shu)(shu)(shu)(shu)據(ju)(ju)時(shi)(shi)代(dai)帶(dai)來的(de)各(ge)種(zhong)風險。例如(ru)書中提到(dao)四(si)個管理變革:加(jia)強(qiang)個人(ren)許可(ke)保護隱私、個人(ren)只為(wei)自己的(de)行為(wei)負(fu)責而不(bu)(bu)是(shi)大數(shu)(shu)(shu)(shu)據(ju)(ju)預測的(de)傾(qing)向負(fu)責、“算法(fa)(fa)師”的(de)新(xin)(xin)角色來監督(du)大數(shu)(shu)(shu)(shu)據(ju)(ju)使用、和反(fan)壟(long)斷(duan)法(fa)(fa)一(yi)樣(yang)在大數(shu)(shu)(shu)(shu)據(ju)(ju)時(shi)(shi)代(dai)反(fan)數(shu)(shu)(shu)(shu)據(ju)(ju)壟(long)斷(duan)。 “凡是(shi)過去,皆為(wei)序曲(qu)”。回(hui)看阿波羅登月時(shi)(shi)僅(jin)4KB內存(cun)的(de)導(dao)航控制系(xi)統(tong),大數(shu)(shu)(shu)(shu)據(ju)(ju)時(shi)(shi)代(dai)會發生什么都不(bu)(bu)應(ying)該覺得奇特了(le)(le)。我們必須要以開放(fang)創新(xin)(xin)的(de)心(xin)態去迎接大數(shu)(shu)(shu)(shu)據(ju)(ju)時(shi)(shi)代(dai)的(de)挑戰和機遇。 當然大數(shu)(shu)(shu)(shu)據(ju)(ju)也(ye)不(bu)(bu)是(shi)萬能的(de),主(zhu)導(dao)還是(shi)源(yuan)于人(ren)類本身的(de)創新(xin)(xin)。如(ru)果只是(shi)依(yi)靠歷(li)史大數(shu)(shu)(shu)(shu)據(ju)(ju)預測未來,福(fu)特Ford公(gong)司(si)的(de)產(chan)品經理們得出的(de)需求Demand也(ye)許永遠都是(shi)更快的(de)馬,而不(bu)(bu)是(shi)汽(qi)車(che)了(le)(le)。
煤炭行業20項專利項目榮獲第
廣東廣州釋放約12.5億填埋場版權聲明