商業互聯網已經出現20多(duo)年,但(dan)從你收到第(di)一(yi)份(fen)電(dian)子情書到現在,互聯網的整體(ti)用(yong)戶體(ti)驗并沒有(you)太多(duo)變化。
互聯網最初(chu)僅被用于(yu)政府,高校和企業通用的(de)研發工具(ju)。隨著超(chao)鏈接的(de)出(chu)現,互聯網轉變為商(shang)品和服務的(de)運營車。
現在(zai)(zai)(zai)(zai),支持(chi)科(ke)研僅僅是互聯網的(de)(de)一個小功(gong)能(neng),它(ta)已經嚴重偏向(xiang)于(yu)用戶(hu)至(zhi)上(shang)主(zhu)義。例(li)如,你(ni)(ni)(ni)想在(zai)(zai)(zai)(zai)網上(shang)搜索(suo)所有使用HP950墨(mo)(mo)盒(he)的(de)(de)打(da)(da)印機,如果你(ni)(ni)(ni)在(zai)(zai)(zai)(zai)搜索(suo)引擎(qing)中(zhong)輸入‘HP950墨(mo)(mo)盒(he)’,你(ni)(ni)(ni)很有可能(neng)在(zai)(zai)(zai)(zai)谷歌中(zhong)找到500,000條指向(xiang)打(da)(da)印機墨(mo)(mo)盒(he)的(de)(de)鏈接。你(ni)(ni)(ni)確(que)實能(neng)搜索(suo)到有關打(da)(da)印機的(de)(de)內容,但(dan)這(zhe)些信息僅僅是關于(yu)那些使用950墨(mo)(mo)盒(he)的(de)(de)打(da)(da)印機,沒什么特別(bie)的(de)(de),網絡也不會(hui)給你(ni)(ni)(ni)擴展性的(de)(de)建議。

知識獲取:無監督(du)學習的智能依(yi)賴大(da)數據
人(ren)工智能是(shi)否會使互聯網變聰(cong)明呢?在可預見的(de)未(wei)來,不(bu)會。因為網絡上的(de)信息并(bing)不(bu)能直接被(bei)AI所用。而從近期無(wu)監(jian)督神(shen)經網絡技術的(de)發展來看,無(wu)監(jian)督機器(qi)學習的(de)智能性(xing)依賴于大(da)量數據。
例如,如果(guo)你想在網上(shang)賣毛衣,打算用一個AI機器(qi)提高銷量。你需(xu)要做的第一件事是(shi)告訴你的AI機器(qi)什么是(shi)毛衣。
你需(xu)要從不同的(de)地(di)方收集各種毛衣圖片,比如時尚雜志(zhi),零售商(shang)的(de)產(chan)品目錄,博客等。這些圖片被送入你的(de)AI機中,供(gong)它學習不同類(lei)型毛衣的(de)特(te)征:尺寸(胸圍(wei)、腰圍(wei)、臀(tun)圍(wei))和樣式(套頭衫、V領、高領等),以(yi)及毛衣的(de)圖案,顏色,材質(羊毛、棉質、混合材質)。這些被稱為(wei)基于經驗的(de)特(te)征,互(hu)聯網(wang)上有很(hen)多相關的(de)介紹。
機器如(ru)何識別那(nei)些(xie)需要推導的特征(即“軟特征”)呢,比如(ru)那(nei)些(xie)與時間或(huo)空間相(xiang)關的:你會(hui)在夏(xia)天(tian)賣毛衣么?你會(hui)把毛衣賣給熱帶居(ju)民么?
知識準(zhun)確性:監督(du)式機器學習
你(ni)(ni)需要花費大量時間(jian)和精力收集(ji)不同(tong)類(lei)型的(de)數(shu)據(ju)去訓練你(ni)(ni)的(de)智能機(ji)(ji)。為(wei)了獲得一個高效智能機(ji)(ji),數(shu)據(ju)的(de)準確度應該是多少?也許網上發(fa)布的(de)數(shu)據(ju)足夠(gou)回答90%的(de)關于毛衣的(de)查詢(xun)。
畢(bi)竟,如谷歌自己所承認的(de),他們的(de)開(kai)源自然語言理解(jie)系(xi)統SyntaxNet剛剛達到90%的(de)準確率。
在(zai)語(yu)言處理領(ling)域這(zhe)是一個(ge)偉大的(de)(de)成就。然而,這(zhe)個(ge)準確率適(shi)用(yong)于(yu)你個(ge)人的(de)(de)業務(wu)么?在(zai)你公司系(xi)統中有多少關于(yu)公司業務(wu)的(de)(de)文檔?這(zhe)些文檔完整么?它們是否是最新(xin)的(de)(de)?是否反映(ying)了你的(de)(de)企業的(de)(de)所有業務(wu)的(de)(de)相互(hu)依(yi)賴關系(xi)?
你的(de)商業模(mo)(mo)式能(neng)否(fou)處理90%的(de)準確率(lv)?在健康保險領域(yu),根(gen)據公司規(gui)模(mo)(mo),90%的(de)準確率(lv)在不當的(de)索償仲(zhong)裁(cai)中會導致數(shu)以(yi)千萬的(de)甚(shen)至百億的(de)經濟(ji)損失(shi)。
你是否有足夠大的數據量(liang)支持(chi)你的智(zhi)能(neng)機學(xue)習有關你商(shang)業程(cheng)序的所(suo)有特征(zheng),以使你的智(zhi)能(neng)商(shang)業決策(ce)100%準確?無監督機器學(xue)習方法(fa)的低(di)準確率也(ye)許(xu)不能(neng)使其被廣泛應用。
不(bu)同的(de)知識(shi)獲取方法(fa)
那么(me)你還(huan)有(you)其他選(xuan)項么(me)?我之前(qian)的(de)(de)文章《大數據(ju)和(he)(he)機器學習:我們該(gai)悲(bei)觀么(me)?》,說(shuo)過(guo)認(ren)知計(ji)算包含兩(liang)種不同的(de)(de)派(pai)別。第(di)一(yi)種是(shi)統計(ji)推理(li):機器學習被歸入此類。第(di)二種是(shi)邏輯推理(li):計(ji)算機用‘本體’描述事物和(he)(he)事物間(jian)的(de)(de)關(guan)系。主管(guan)蘋果公司Siri的(de)(de)TomGruber在20世紀(ji)90年(nian)代早期定義本體為(wei)“概念化的(de)(de)明確規范”。
為(wei)了(le)提高智能(neng)商業(ye)決(jue)策的準確度,你(ni)可以(yi)借鑒銀行業(ye)的方法(fa)。在“Don'tdowhatIsay,dowhatImean”一文中(zhong),我講(jiang)了(le)銀行業(ye)如何利(li)用(yong)本(ben)體構建知識模型(xing),描述商業(ye)概念和特(te)征以(yi)減輕全球風(feng)險。
本體不是機器(qi)(qi)(qi)學(xue)習(xi)(xi)方(fang)法的(de)(de)替代,而是另(ling)一種(zhong)機器(qi)(qi)(qi)學(xue)習(xi)(xi)方(fang)法的(de)(de)支柱:監督(du)式機器(qi)(qi)(qi)學(xue)習(xi)(xi)。此種(zhong)機器(qi)(qi)(qi)學(xue)習(xi)(xi)依賴(lai)于(yu)被注解的(de)(de)數據。最近,谷(gu)歌、微軟必應、雅虎和Yandex已經(jing)聯合建立(li)一個基于(yu)語義互聯網規范的(de)(de)網絡本體:schema.org。
IBMWatson使(shi)用DBpedia和(he)YAGO增(zeng)強它(ta)的(de)知識庫。BBC、TheNewYorkTimes以及世界上的(de)大型圖(tu)書館和(he)博物館正在使(shi)用基于“鏈接開放(fang)數據社區項(xiang)目”的(de)知識模型。將獲取知識的(de)過(guo)程(cheng)形式化(hua)是(shi)一個偉大的(de)工(gong)作(zuo),和(he)你使(shi)用何種機器學習(xi)方法無(wu)關。
人工智能會(hui)不會(hui)讓網(wang)絡(luo)變(bian)聰明?考(kao)慮到現(xian)在僅有(you)6%的互聯網(wang)域名被正確(que)標記,答案(an)是將(jiang)來某(mou)天(tian)。為(wei)一(yi)(yi)個AI解決(jue)方案(an)開發一(yi)(yi)個綜(zong)合的路線(xian)圖要求機(ji)器理解知(zhi)識,且能將(jiang)知(zhi)識轉化為(wei)機(ji)器可處理的形式,這些可通過學(xue)習大(da)數據或開發精確(que)的知(zhi)識模型(xing)實(shi)現(xian)。
互聯網不會(hui)(hui)在短期內變(bian)聰明。然(ran)而,你的(de)競爭對手呢?你要把(ba)開發智能(neng)業務解決(jue)方(fang)案的(de)機(ji)會(hui)(hui)讓(rang)給他們么?那樣就太晚(wan)了。
煤炭行業20項專利項目榮獲第
廣東廣州釋放約12.5億填埋場版權聲明