ICT技術、尤其是大數據的發展推動了新一代人工智能的興起。那么,大數據思維與新一代人工智能有什么關系呢?
大數據思維有幾個最典型的說法:是相關性而不是因果性、是全體樣本而不是采樣、簡單算法勝過復雜算法。在我看來,這三個說法是有邏輯關系的。大數據的本質優勢存在于:“是全體樣本而不是采樣”。這個特征意味著:發生問題時,我們總能在歷史數據中找到相似的案例。在此基礎上,根據案例去模仿、去判斷。例如:要知道從寶鋼到浦東機場的最快速度,找到最快的案例跟著走就可以了。當然,這個邏輯成立的前提是計算能力是足夠強大。在此基礎上,找案例往往是簡單的算法:如果有難點的話,就是如何衡量相似度。而此這一點,常常可以根據人的經驗去制定規則。于是,根據案例去模仿、去判斷,也就不需要理解什么因果了:反正這樣做是成功的、正常的,不必要知道為什么了。這種做法簡單粗暴,但卻有效。
通過這件事,我們可以反思一下關于大數據的定義。很多人用數據規模的定義“大數據”,主要著眼于數據的處理能力,是從乙方的角度看問題。對用戶來說,這并不是一個很好的角度。如果從甲方的角度看問題、從滿足業務需求、解決問題的角度看問題,用“是全體樣本而不是采樣”來定義大數據則更加有用。
從某種意義上說,新一代人工智能是應用大數據的一種方式。機器學習等方法把簡單粗暴的處理辦法提煉成了模型,但思想層面卻還保存著“簡單粗暴”的“基因”:新一代人工智能體現感性認識、形象思維,而不是邏輯思維、理性認識。例如,新一代人工智能的典型進進展圖像識別、語音識別、圍棋等,關鍵是模仿人的感知能力(圍棋中,可以模仿人們對“勢”的感覺)。我們知道,人的感性認識和形象思維很難通過人類和計算機語言告訴計算機的。這一點制約了相關技術的發展:比如,制約了自動駕駛、機器無法替代品酒師。機器學習則是讓機器自己去掌握這些知識,而不必去編碼。這就是周院長說的,從“授之以魚”發展到“授之以漁”。
所以,與理性思維、邏輯思維相比,感性認識、形象思維并不是“低檔次”的思維方式,而是基礎的思維方式、是理性和邏輯思維無法替代的思維方式。這是新一代人工智能的價值所在。
從另外一個角度看,解決“感性認識”、“難以編碼”的問題,采取的是神經系統的“結構模擬”、而不是“功能模擬”。這種方法的前身是人工神經元網絡。人工神經元方法曾經沒落過,因為它難以解決“不可泛化”的問題。可泛化的問題是通過“深度學習”來解決的——但是,只有在大數據和計算能力增強的條件下,深度學習才能解決可泛化問題,從而可以讓計算機可以有效模擬難以編碼的感性認識。或者說,如果數據量不夠大、數據分布的完整性不夠好,深度學習未必有用。
我一直覺得,大數據思維“是相關不是因果”的提法不好,容易導致思想上的混亂。特別地,工業大數據還是強調因果的。根據上面的分析,我覺得更確切的說法或許是:大數據的優勢在于可以促進感性認識、形象思維的模仿,但并不排斥理性認識、邏輯思維。我甚至認為,深度學習促進了感性認識和理性認識的結合、形象思維和邏輯思維的結合。這種結合,就像從一維空間走到了二維空間,把一個大的技術藍海展現在人們的面前。
(審核編輯: 智匯張瑜)
分享