大數據之“大”的三個含義 很幸運,我不是紙上談兵。在重讀Big Data之前,我的團隊在最近一個項目中,通過Spark MLlib的機器學習,對近10年的用戶數據進行了初步處理,消費目標預測正確率達到了75%。這個項目充分證明了大數據的實際效益。下面我們來看看“大”的三個具體含義分別是什么吧。
一、更多(More) “更多”的含義是“樣本=總體”,即大數據分析取代樣本分析。書中不僅給出了Xoom跨境匯款異常交易報警案例,也給出了喬布斯通過DNA排序治療癌癥的例子。后者例子中,喬布斯得到了整個基因密碼的數據,根據基因突變不同排列,醫生遍歷嘗試各種用藥,將他的生命延長了好幾年。理論上,如果計算能力足夠強,用藥足夠及時,大數據分析治療取代DNA樣本治療是可以戰勝癌癥的。
二、更雜(Messy) “更雜”的含義是“大數據的簡單算法比小數據的復雜算法更有效”。在研發計算機翻譯系統時,IBM使用傳統統計學方法對英法兩種語言進行翻譯,而Google使用60多種語言的海量級語料庫進行翻譯,這兩種方法形成了鮮明的對比。 Google的翻譯質量之所以更好不是因為復雜算法,而是更雜更多的數據。
三、更好(Correlation) “更好”的含義是“知道相關關系(是什么)就夠了,沒必要,或者可以晚一些,知道因果關系(為什么)”。例如書中提到的沃爾瑪把草莓味蛋撻與颶風用品擺一起賣銷量就大,然而一直沒搞明白其因果關系。另外,在Kaggle二手車質量預測例子中,相關關系分析表明,橙色車質量問題是其他顏色的一半,也很難用因果分析,甚至過度的研究因果關系有可能把一些視角蒙蔽掉。 在剛才提到的我的實際案例Spark MLlib大數據分析過程中,使用了近10年消費者總體數據作為輸入,而不是個別樣本(更多),盡量保持原始消費者數據不變,沒有過多的清洗(更雜),只關注消費者購買目標預測,不過多分析其中原因(更好)。大數據之“大”的三個含義,更多、更雜、更好,得到了充分的實踐證實。 2 大數據對商業模式的影響 眾所周知,BAT中的阿里巴巴招募了幾千位數據研發工程師,數據分析師,數據挖掘工程師。作為電子商務的先鋒,他們的數據工程師們都在具體干什么呢?
四、量化(Datafication) 量化也叫做數據化,就是把IT信息技術變革的重點從現在的“T”上,聚焦到“I”上。原書作者從1839年的美國海軍軍官莫里Maury數據化航海數據說起,一直到現代的Google數字圖書館,處處都體現了數據化帶給整個商業模式的重大影響。現實中,阿里的工程師們也在量化一切,涵蓋了我們消費者購買的商品、消費方位、和商家的溝通數據等海量信息。
五、價值(Value) 這個價值更多的是說通過數據挖掘產生的增值(Value-added)。很多時候,我們面對數據,就像書中說的一樣,“就像魚不知道自己是濕的一樣”,很形象的說出了我們對身邊信息的無知。所以書中詳細解讀了數據創新中的數據再利用、重組、可擴展、開放等大數據處理工具和方法。
六、角色定位(Implications) 大數據對現代商業的影響(Implications)就是商業價值鏈中的角色重定位。有三種大數據公司:基于數據本身的公司(例如,Google收購的ITA Software、阿里收購的高德地圖等)、基于技能的公司(例如,幫助沃爾瑪獲得營銷點子的大數據技術提供商Teradata)、基于思維的公司(例如,預測航班晚點的FlightCaster)。當然有一些巨無霸公司就三個角色都兼備了,例如Google、Amazon,以及我們經常說的BAT。 在新的商業模式中,隨著大數據Big Data能夠越來越精確地預測世界的事情,我們除了關注傳統的土地、勞動力、資本等生產要素外,必須重視大數據Big Data這個要素,否則就可能真成了上面說的“那條魚”了。 3 大數據對管理理念的影響 書中提到的管理更多的是指社會管理,但是,作為一個技術產品管理的公眾號,我們也希望讀者能在其中悟到一些技術產品團隊管理的道理,尤其注意掌控(Control)和創新(Innovation)之間的平衡。防止過于量化,讓團隊失去創新的活力。
七、風險(Risks) 風險指兩個方面,一是大數據會帶來隱私的威脅;二是數據源的低質量和分析方法的錯誤可能導致數據的濫用和誤用。作者引用了美國國防部長Robert McNamara在越戰中執迷數據的例子,過于依賴電子表格去了解戰場上發生了什么,從而導致了指揮僵化問題。
八、掌控(Control) 掌控就是指人類使用各種方法積極主動應對大數據時代帶來的各種風險。例如書中提到四個管理變革:加強個人許可保護隱私、個人只為自己的行為負責而不是大數據預測的傾向負責、“算法師”的新角色來監督大數據使用、和反壟斷法一樣在大數據時代反數據壟斷。 “凡是過去,皆為序曲”。回看阿波羅登月時僅4KB內存的導航控制系統,大數據時代會發生什么都不應該覺得奇特了。我們必須要以開放創新的心態去迎接大數據時代的挑戰和機遇。 當然大數據也不是萬能的,主導還是源于人類本身的創新。如果只是依靠歷史大數據預測未來,福特Ford公司的產品經理們得出的需求Demand也許永遠都是更快的馬,而不是汽車了。
版權聲明