商業互聯網已經出現20多年,但從你收到第一份電子情書到現在,互聯網的整體用戶體驗并沒有太多變化。
互聯網最初僅被用于政府,高校和企業通用的研發工具。隨著超鏈接的出現,互聯網轉變為商品和服務的運營車。
現在,支持科研僅僅是互聯網的一個小功能,它已經嚴重偏向于用戶至上主義。例如,你想在網上搜索所有使用HP950墨盒的打印機,如果你在搜索引擎中輸入‘HP950墨盒’,你很有可能在谷歌中找到500,000條指向打印機墨盒的鏈接。你確實能搜索到有關打印機的內容,但這些信息僅僅是關于那些使用950墨盒的打印機,沒什么特別的,網絡也不會給你擴展性的建議。
知識獲取:無監督學習的智能依賴大數據
人工智能是否會使互聯網變聰明呢?在可預見的未來,不會。因為網絡上的信息并不能直接被AI所用。而從近期無監督神經網絡技術的發展來看,無監督機器學習的智能性依賴于大量數據。
例如,如果你想在網上賣毛衣,打算用一個AI機器提高銷量。你需要做的第一件事是告訴你的AI機器什么是毛衣。
你需要從不同的地方收集各種毛衣圖片,比如時尚雜志,零售商的產品目錄,博客等。這些圖片被送入你的AI機中,供它學習不同類型毛衣的特征:尺寸(胸圍、腰圍、臀圍)和樣式(套頭衫、V領、高領等),以及毛衣的圖案,顏色,材質(羊毛、棉質、混合材質)。這些被稱為基于經驗的特征,互聯網上有很多相關的介紹。
機器如何識別那些需要推導的特征(即“軟特征”)呢,比如那些與時間或空間相關的:你會在夏天賣毛衣么?你會把毛衣賣給熱帶居民么?
知識準確性:監督式機器學習
你需要花費大量時間和精力收集不同類型的數據去訓練你的智能機。為了獲得一個高效智能機,數據的準確度應該是多少?也許網上發布的數據足夠回答90%的關于毛衣的查詢。
畢竟,如谷歌自己所承認的,他們的開源自然語言理解系統SyntaxNet剛剛達到90%的準確率。
在語言處理領域這是一個偉大的成就。然而,這個準確率適用于你個人的業務么?在你公司系統中有多少關于公司業務的文檔?這些文檔完整么?它們是否是最新的?是否反映了你的企業的所有業務的相互依賴關系?
你的商業模式能否處理90%的準確率?在健康保險領域,根據公司規模,90%的準確率在不當的索償仲裁中會導致數以千萬的甚至百億的經濟損失。
你是否有足夠大的數據量支持你的智能機學習有關你商業程序的所有特征,以使你的智能商業決策100%準確?無監督機器學習方法的低準確率也許不能使其被廣泛應用。
不同的知識獲取方法
那么你還有其他選項么?我之前的文章《大數據和機器學習:我們該悲觀么?》,說過認知計算包含兩種不同的派別。第一種是統計推理:機器學習被歸入此類。第二種是邏輯推理:計算機用‘本體’描述事物和事物間的關系。主管蘋果公司Siri的TomGruber在20世紀90年代早期定義本體為“概念化的明確規范”。
為了提高智能商業決策的準確度,你可以借鑒銀行業的方法。在“Don'tdowhatIsay,dowhatImean”一文中,我講了銀行業如何利用本體構建知識模型,描述商業概念和特征以減輕全球風險。
本體不是機器學習方法的替代,而是另一種機器學習方法的支柱:監督式機器學習。此種機器學習依賴于被注解的數據。最近,谷歌、微軟必應、雅虎和Yandex已經聯合建立一個基于語義互聯網規范的網絡本體:schema.org。
IBMWatson使用DBpedia和YAGO增強它的知識庫。BBC、TheNewYorkTimes以及世界上的大型圖書館和博物館正在使用基于“鏈接開放數據社區項目”的知識模型。將獲取知識的過程形式化是一個偉大的工作,和你使用何種機器學習方法無關。
人工智能會不會讓網絡變聰明?考慮到現在僅有6%的互聯網域名被正確標記,答案是將來某天。為一個AI解決方案開發一個綜合的路線圖要求機器理解知識,且能將知識轉化為機器可處理的形式,這些可通過學習大數據或開發精確的知識模型實現。
互聯網不會在短期內變聰明。然而,你的競爭對手呢?你要把開發智能業務解決方案的機會讓給他們么?那樣就太晚了。
版權聲明