移動端谷歌搜索剛剛上線這種“句子壓縮算法”(sentence compression algorithms)。這個對人類來說很簡單,但對傳統(tǒng)的機器來說很難的任務(wù),終于能被 AI 系統(tǒng)完成。這說明,深度學習正在促進自然語言理解這門藝術(shù)(理解并回應(yīng)人類語言)的發(fā)展。
谷歌研發(fā)產(chǎn)品經(jīng)理 David Orr 說:“對于“句子壓縮”,你不得不使用神經(jīng)網(wǎng)絡(luò)算法,因為這是目前我們發(fā)現(xiàn)的唯一方法。”
谷歌也使用過期的新聞來訓練 AI 問答系統(tǒng)。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這并不意味著谷歌不需要成批語言學家了。他們不僅示范句子壓縮,還要對語句的不同部分做標記,以幫助神經(jīng)網(wǎng)絡(luò)理解人類語言是如何工作的。David Orr 把谷歌語言學家團隊處理的數(shù)據(jù)稱為“黃金數(shù)據(jù)”,過期新聞則是“白銀數(shù)據(jù)”。“白銀數(shù)據(jù)”作用不小,因為它的體量很大。但價值最大的還是“黃金數(shù)據(jù)”,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續(xù)擴大。
這類需要人工輔助的 AI 學習便是“監(jiān)督學習”(supervised learning),目前,神經(jīng)網(wǎng)絡(luò)都是這么運作的。有時候公司會把這個業(yè)務(wù)進行眾包,有時候它會自發(fā)地進行。比方說,全世界的網(wǎng)民已經(jīng)為數(shù)百萬的貓咪照片添加了“貓咪”標簽,這會讓神經(jīng)網(wǎng)絡(luò)學習識別貓咪變得很簡單——訓練數(shù)據(jù)已經(jīng)處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為數(shù)據(jù)添加標簽。
深度學習初創(chuàng)公司Skymind 的創(chuàng)始人 Chris Nicholson 認為,長遠來看,人工標注數(shù)據(jù)是不可行的。他說:“將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。”
監(jiān)督學習的缺陷遠不止如此:除非谷歌聘請所有語言的語言學家,否則這個系統(tǒng)無法在其他語言中運轉(zhuǎn)。現(xiàn)在,語言學家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天,采取更自動化的 AI 訓練方式,即“無監(jiān)督學習”(unsupervised learning)。