谷歌也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這并不意味著谷歌不需要成批語言學家了。他們不僅示范句子壓縮,還要對語句的不同部分做標記,以幫助神經網絡理解人類語言是如何工作的。David Orr 把谷歌語言學家團隊處理的數據稱為“黃金數據”,過期新聞則是“白銀數據”。“白銀數據”作用不小,因為它的體量很大。但價值最大的還是“黃金數據”,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續擴大。
這類需要人工輔助的 AI 學習便是“監督學習”(supervised learning),目前,神經網絡都是這么運作的。有時候公司會把這個業務進行眾包,有時候它會自發地進行。比方說,全世界的網民已經為數百萬的貓咪照片添加了“貓咪”標簽,這會讓神經網絡學習識別貓咪變得很簡單——訓練數據已經處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為數據添加標簽。
深度學習初創公司Skymind 的創始人 Chris Nicholson 認為,長遠來看,人工標注數據是不可行的。他說:“將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。”
監督學習的缺陷遠不止如此:除非谷歌聘請所有語言的語言學家,否則這個系統無法在其他語言中運轉。現在,語言學家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天,采取更自動化的 AI 訓練方式,即“無監督學習”(unsupervised learning)。