通用人工智能什么時候實現,自今年清北強強聯合舉辦通人工智能實驗班之后,我國通用人工智能領域的研究開始廣受大家的關注,大家最好奇的一點是通用人工智能什么時候才能夠實現,小編收錄整理了一些信息,供大家參考。
通用人工智能什么時候實現
在 2015 年,筆者對通用人工智能何時能夠實現做出了以下預測:
到 2045 年,有 10% 的可能性。
到 2050 年,有 50% 的可能性。
到 2070 年,有 90% 的可能性。
現在已經是 2020 年了,筆者將預測更新為如下:
到 2035 年,有 10% 的可能性。
到 2045 年,有 50% 的可能性。
到 2070 年,有 90% 的可能性。
筆者將 90% 的可能性的年份保持不變,但將其他一切都調得更快了。現在,如果你想知道筆者為什么選擇這些特定的年份,以及為什么筆者用 10 年而不是 5 年或 15 年來改變,你將會失望的。因為這些都是筆者靠直覺進行預測的。重要的是為什么筆者的部分想法發生了變化——你可以在這個基礎上,選擇自己的時間軸進行調整。
讓筆者們先從簡單的部分開始。
筆者應該更不確定
如果說,筆者從來沒有對機器學習的研究感到驚訝,那將是一件不可思議的怪事。從歷史上看,預測一個研究領域的發展軌跡是很難的。如果筆者從來沒感到驚訝,筆者會認為這是由于筆者個人沒有考慮足夠大的想法所致。
同時,當筆者回想起過去的五年,筆者相信筆者比平常更感到驚訝。并不是所有的事情都朝著積極的方向發展。無監督學習比筆者想象的要好得多。深度強化學習比筆者預期的要好一些。而遷移學習比筆者想的要慢一些。綜合起來,筆者決定擴大結果的分配范圍,所以,現在筆者把 35 年的時間分配到 10% ~ 90% 的時間間隔,而不是 25 年。
筆者還注意到,筆者在 2015 年的預測將 10% ~ 50% 放在 5 年的范圍內,50% 到 90% 放在 20 年的范圍內。通用人工智能是一個長尾事件,確實有可能永遠不可行,但 5 ~ 20 的拆分顯然是不科學的。筆者正在相應地調整。
現在,筆者們到了最難的部分。為什么筆者選擇將 10% 和 50% 的年份更靠近現在呢?
筆者沒有考慮到更好的工具
三年前,筆者曾和一個人聊天,他提到 通用人工智能沒有“火警警報”。筆者告訴他們,筆者知道 Eliezer Yudkowsky 寫了另一篇關于通用人工智能的文章,筆者還注意到 Facebook 的朋友們分享了這篇文章,但筆者還沒有來得及閱讀。他們將這篇文章總結為:“通用人工智能何時發生,永遠不會很明顯。即使是在它發生前幾年,人們也會認為通用人工智能還很遙遠。等到大家都認識到人工智能安全是世界上最重要的問題時,就已經太晚了。
筆者的反應是,“好吧,這和筆者從 Facebook 的時間軸上得到的信息相符。就在費米參加曼哈頓計劃前幾年,筆者就已經知道 費米預測核連鎖反應很可能是不可能 的。最近,Rémi Coulom 表示,超人類的圍棋程序大約還有 10 年時間,一年后才出現 最初的可能跡象,兩年后,AlphaGo 正式問世。筆者也已經知道人工智能安全的 常識>) 觀點。”筆者覺得這篇文章不值得花時間去閱讀。
(如果你還沒有聽過這些常識的爭論,下面是簡短版:大多人認為人工智能安全是值得的,即使沒有人公開這么說,因為每個人都可能擔心,如果他們主張采取激烈行動,其他人就會說他們瘋了。即使每個人都同意,這種情況也可能發生,因為他們不知道每個人都同意。)
幾年后,出于無聊,筆者重新閱讀了這篇文章,現在筆者得向 Facebook 上那些只分享歷史事件和常識的好友們抱怨了。盡管那篇帖子的總結是正確的,但是,筆者發現有用的想法都在總結之外。筆者是那么信任你,你就不能把泡沫過濾掉嗎?你怎么可以這樣讓筆者失望呢?
那篇“火警警報”的帖子中的一部分提出了一些假設,解釋了為什么人們聲稱通用人工智能是不可能的。其中一個假設是,研究人員過于關注使用現有工具進行工作的難度,并將這種難度推斷到未來,得出結論:筆者們永遠不可能創造出通用人工智能,因為現有的工具還不夠好。這是個槽糕的論點,因為你的推斷也需要考慮到研究工具也隨著時間的推移而改進。
“工具”的意思有點模糊。一個明顯的例子是筆者們的編碼庫。在過去,人們用 Caffe、MATLAB 和 Theano 來編寫神經網絡,而現在主要是 TensorFlow 和 PyTorch。一個不太明顯的例子是用于計算機視覺的特征工程。最后一次有人談論計算機視覺的 SIFT 特征 是什么時候?那是好多年以前,它們現在已經過時了。但特征工程并沒有消失,只是變成了 卷積神經網絡 的架構調優。對于計算機視覺研究者來說,SIFT 特征是老舊的工具,卷積神經網絡則是嶄新的工具,而計算機視覺是被更好的工具所強化的應用。
然而對筆者來說,筆者并不是計算機視覺專家。筆者認為用于控制的機器學習是一個更有趣的問題。但是,在基于圖像的環境中,你必須進行計算機視覺來進行控制,如果你想處理現實世界,基于圖像的輸入是最好的選擇。所以對筆者來說,計算機視覺是工具,機器人是應用,計算機視覺的進步推動了許多有前途的機器人學習成果。
[AlexNet](https://en.wikipedia.org/wiki/AlexNet) 自動學習的過濾器,而 AlexNet 本身已被更好的工具 [ResNet](https://en.wikipedia.org/wiki/Residual_neural_network) 淘汰了。
筆者是研究工具的大力支持者。筆者認為就平均而言,人們低估了它們的影響力。因此,在閱讀了人們不能正確預測工具改進的假設之后,筆者進行了思考,認為自己也沒有正確地解釋它。那應該被砍掉幾年。
在機器學習更多的經驗方面,進展的明顯組成部分是你的想法和計算預算,但也有一些不那么明顯的,比如,你的編碼和調試技能,以及你使用計算機的能力。如果代碼沒有使用所有可用的處理器,那么每臺計算機有多少個處理器就并不重要。有很多令人驚訝的機器學習應用,主要的增值來自己于更好的數據管理和數據匯總,因為這些工具可以騰出決策時間來做其他事情。
一般來說,每個人的研究工具都有一定的缺陷。研究是為了做一些新的事情,自然也就會發現新的問題,為了解決三個月前還不存在的問題,人們就做出了完美的工具,這不太可能。因此,你現在的研究工具總是會讓人感覺不太好用,你就不應該用它來爭論什么時間軸的問題。
研究棧有很多部分,整個棧中有不斷的改進,而且這些改進中的大多數都有乘法效應。乘數因素可以非常強大。一個簡單的例子是,要獲得 10 倍的更好結果,你可以通過范式轉換將一件事改進 10 倍,或者可以將 10 件不同的事情 改進 1.26 倍,它們加起來可以得到 10 倍的總體改進。后者同樣具有變革性,但可能要容易得多,特別是你讓 10 位擁有不同技能的專家為了一個共同目標而合作的時候。這就是企業如何成就一件事情的秘訣。
半監督和無監督學習正變得越來越好
從歷史上來看,無監督學習一直處于這種奇怪的位置,它顯然是正確的學習方式,但如果你想讓某件東西盡快發揮作用,這也完全是在浪費時間。
一方面,人類學習的大多數東西都沒有標簽,所以機器學習系統也不應該需要什么標簽。另一方面,2015 年的深度學習熱潮主要是由帶標簽的大型數據集上的監督學習所推動的。當時,Richard Socher 在推特上發布了一條引人入目的 推文:
與其花一個月的時間去琢磨一個無監督機器學習的問題,還不如用一個禮拜的時間給一些數據貼上標簽,然后訓練一個分類器。
—— Richard Socher (@RichardSocher),2017 年 3 月 10 日
筆者不會說無監督學習一直沒用。在 2010 年,人們普遍認為,深度學習在開始監督式學習之前,應該先經過一個無監督的預訓練步驟。參見 Erhan 等人在 JMLR 2010 發表的論文《為什么無監督的預訓練有助于深度學習?》(Why Does Unsupervised Pre-training Help Deep Learning?)。2015 年,像 GloVe 和 word2vec 這樣的自筆者監督詞向量可以自動學習詞匯之間的有趣關系。作為一個 2015 年左右開始機器學習的人,這些無監督學習的成功感覺就像是規則的例外。大多數其他應用都依賴于標簽。預訓練的 ImageNet 特征是最接近一般行為的東西,這些特征是通過監督式學習從頭開始學習的。
筆者一直都認為,無監督學習是未來的趨勢,也是正確的方式,只要筆者們弄清楚如何去實現。但是,伙計,筆者們已經花了很長時間來嘗試實現。這讓筆者對過去幾個月的半監督學習和無監督學習的論文印象深刻。Momentum Contrast(He 等人,VCPR 2020)相當不錯,SimCLR(Chen 等人,ICML 2020)在此基礎上有所改進,Bootstrap Your Own Latent(Grill、Strub、Altché、Tallec、Richemond 等人,2020 年)在此基礎上也有所改進,然后是 GPT-3,這個筆者待會兒再講。
當筆者在思考是什么讓機器學習變得困難時,趨勢線指向更大的模型和更大的標記數據集。它們現在還在指那個方向。筆者的結論是,未來的機器學習進展將受到標簽要求的瓶頸。定義一個 10 倍大的模型很容易,而訓練一個 10 倍大的模型卻更難,但它并不需要 10 倍多的人來工作。獲得 10 倍的標簽就可以了。是的,數據標簽工具會越來越好,Amazon Mechanical Turk 非常受歡迎,甚至有一些創業公司的使命就是提供快速的數據標簽服務。但標簽本質上就是關于人類偏好的問題,這就很使它難逃脫人類的勞動。
強化學習的獎勵功能也有類似的問題。原則上,在你定義什么是成功后,模型就會找到解決方案。實際上,你需要一個人來檢查模型是否正在“黑掉”獎勵,或者你的獎勵函數是由人類評級者隱形定義的,這就變成了同樣的標簽問題。
帶標簽的大型數據集不會平白無故地出現。它們需要深思熟慮的、持續的努力才能產生。ImageNet 能夠在 CVPR 2019 上獲得時間測試獎 不是沒有原因的——那篇論文的作者發表并完成了這項工作。如果機器學習需要更大的標記數據集來推動性能,并且模型不斷以數量級保持增長,那么你就會到達一個這樣的臨界點,取得進展所需的人類監督量將是瘋狂的。
(這甚至還沒有涉及到標簽不完美的問題。筆者們發現,在流行的基準測試中使用的許多有標簽的數據集就包含了大量的偏見。這并不奇怪,但現在它已經越來越接近常識,用自由放任的標簽系統構建一個大型數據集,將不再可行。)
好吧,嗯,如果 10 倍的標簽是個問題,那有沒有辦法繞過這個問題呢?一種方法是,如果你不需要 10 倍的標簽來訓練一個 10 倍大的模型。關于這方面的信息挺復雜的。一篇標度律(Scaling law)的論文(Hestness 等人,2017 年)建議模型大小隨數據集大小次線性(sublinearly)增長。
筆者們期望擬合一個數據集的模型參數的數量應該遵循 $s(m) \propto \alpha m^{\beta_p}$,其中 $s(m)$ 是一個擬合一個大小為 $m$ 的訓練集所需的模型大小。
不同的問題設置具有不同的悉數,圖像分類遵循 $\beta_p=0.573$ 冪定律,而語言建模遵循 $\beta_p \approx 0.72$ 線。
圖像分類趨勢線(左)和語言建模趨勢線(右)([來源:Hestity 等人,2017 年](https://arxiv.org/abs/1712.00409))
反過來說,這意味著數據集大小應隨模型大小呈超線性增長:10 倍大的圖像分類模型應該使用 $10^{1/0.573} = 55.6$ 倍的數據!那真是個可怕的消息啊!
但是,Kuplan 和 Candlish 在 2020 年發表的論文 卻提出了相反的關系:數據集的大小應該隨著模型的大小而增長。他們只研究語言建模,但是在論文的第 6.3 節指出:
為控制過擬合,第 4 節的結果暗示筆者們應該將數據集的大小擴展為 $D \propto N^{0.74}$,其中 $D$ 是數據集大小,$N$ 是模型大小。
與 $D \propto N^{1/0.72}$ 的 Hestness 結果相比,這顯得很奇怪。數據集應該比模型增長得快還是慢呢?
這兩個數字之間存在差異的原因是,Kaplan 結果是在假設固定的計算預算的情況下得出的。他們發現的一個關鍵結果是,在短時間內訓練一個非常大的模型比訓練一個較小的模型來收斂效率更高。同時,據筆者所知,Hestness 結果總是使用訓練過的模型來收斂。
來源:[Kaplan 和 Candlish,2020 年](https://arxiv.org/abs/2001.08361)
這有點離題了,但是輸入數字之后,筆者們得到模型大小每增加 10 倍,數據集大小就需要增加 4 到 50 倍。讓筆者們假設 4 倍的方面要大方。對于標簽需求而言,4 倍的系數肯定要比 10 倍的系數好很多,但仍然是很多。
進入無監督學習,這些方法正在變得越來越好,“標簽”的意義正朝著更容易獲得的方向發展。GPT-3 是在一堆網絡抓取數據上進行訓練的,雖然也需要一些輸入處理,但在進入模型訓練之前,它并不需要人工驗證文本的每一句話。在足夠大的規模下,盡管看起來你的標簽是嘈雜的,數據是混亂的,但這都是可以的。
這里有很大的潛力。如果你有 $N$ 個無監督的例子,那么 $N$ 個帶標簽的例子會更好,但要記住,標簽是需要花費很多精力的。標記數據集的大小受你所能承擔的監督的限制,并且你可以用同樣的工作量獲得更多的無標簽數據。
很多有關大數據的炒作都是由一些情節驅動的,這些情節顯示數據的創造速度比摩爾定律還快。大肆炒作最終還是失敗了,因為無知的高管不明白這一點:擁有數據與擁有有用的機器學習并不是一回事。可用數據的真實數量要少得多。這引起了研究界的哄笑,但如果無監督學習變得更好,甚至垃圾數據也變得稍微有用的話,那么筆者們就會成為笑柄。
無監督學習已經足夠好了嗎?當然沒有,100% 絕對沒有。這比筆者預期的要近。筆者希望看到更多的論文使用與目標任務無關的數據源,以及更多的“ImageNet 時刻”,通過“站在別人 GPU 時間的肩膀上”來構建應用。
GPT-3 的結果在質量上比筆者預期的要好
在人們開始擺弄 GPT-3 之前,筆者已經更新了筆者的時間軸估計,但 GPT-3 是促使筆者寫下本文解釋原因的動機。
筆者們在 GPT-3 上看到的是,語言是一個非常靈活的輸入空間。人們早就知道這一點了。筆者認識一位從事自然語言處理的教授,他說,語言理解是一項人工智能完成的任務,因為一臺假設的機器完全理解并且回答所有的問題,就像人類一樣。也有人認為,壓縮是智能的代表。正如 Hutter Prize 網站上所論述的那樣,要壓縮數據,就必須識別數據中的模式,如果你把模式識別看作是智能的一個關鍵組成部分,那么更好的壓縮器應該更智能。
需要說明的是,這些并不是自然語言處理研究界的普遍觀點!關于 語言理解究竟意味著什么 這一問題,人們展開了激烈的爭論。筆者之所以提到它們,是因為這些觀點都是嚴肅的人所持有的,而 GPT-3 的結果支持這些觀點。
GPT-3 有很多東西,但它的核心是一個系統,它使用大量的訓練時間,將一個非常大的文本預料壓縮成一組較小的 Transformer>) 權重。最終的結果展示了一個令人驚訝的知識廣度,可以縮小到許多不同的任務中,只要你能將這個任務變成文本的提示,以種子模型的輸出。它是有缺陷,但技術演示的廣度是有點荒謬的。同樣值得注意的是,大多數這種行為都是由于善于預測文本的下一個標記而產生的。
這個成功是上一節(更好的無監督學習)的一個具體例子,也是第一部分(更好的工具)的標志。盡管在故事生成中有很多有趣的東西,但筆者最感興趣的是 代碼生成演示。它們看起來就像是“Do What I Mean”編程接口的早期跡象。
這太讓人興奮了。使用 GPT-3,筆者構建了一個布局生成器,你只需在其中描述任何你想要的布局,它就會為你生成 JSX 代碼。
如果現有的技術演示可以提高 5 倍,那么,如果它們變成了具體細節變成的關鍵生產力助推器,筆者也不會感到驚訝。目前,系統設計、代碼驗證和調試很可能都是由人工來完成的,但很多編程都是在代碼內“著色”。即使是低水平的功能也可能會改變游戲規則,就像 2000 年前的搜索引擎一樣。AltaVista 在 1998 年的訪問量排名第 11,肯定比 Google/Bing/DuckDuckGo 現在能做的還要糟糕。
筆者們可以看到,代碼生成有用的一個具體方式是用于機器學習工作。比如 神經結構搜索 和 黑盒超參數優化。圍繞通用人工智能的常見爭論之一是 智能爆炸,而這類黑盒方法被視為一種潛在的智能爆炸機制。但是,它們長期以來一直存在一個關鍵的限制:即使你假定計算量是無限的,也必須有人實現代碼,從實驗參數到最終性能提供一個干凈 API。可探索的搜索空間從根本上受到人類所認為的搜索空間維度的限制。如果你不設想搜索空間的一部分,機器學習就不能對它進行探索。
機器人學習中的域隨機化也存在同樣的問題。這是筆者對 OpenAI Rubik Cube 結果 的主要批評。這篇論文讀起來像是一年來對 Rubik Cube 域隨機化搜索空間的發現,而不是任何可泛化的機器人學習課程。最終的結果是基于一個從大量隨機模擬中學習泛化的模型,但這個模型之所以能達到這個效果,是因為人們花費了大量的精力來確定哪些隨機化值得實施。
現在想象一下,每當你在模擬器中發現一個未知的新未知時,你可以非常快速地實現代碼的更改,將它添加到你的域隨機化搜索空間。嗯,這些方法看起來確實比較有前途。
GPT-3 當然也存在一些問題。它有一個固定的注意力窗口。它沒有辦法從試圖預測下一個文本字符的過程中學習任何它還沒有學到的東西。要確定它知道什么,需要學習如何提示 GPT-3 給出你想要的輸出,而不是所有簡單的提示都能奏效。最后,它沒有意圖或代理的概念。它就是下一個詞的預測器。這就是它的全部,筆者猜想,試圖改變它的訓練損失以增加意圖或代理,將比聽起來要困難得多。(而在筆者看來已經相當困難了!永遠不要低估一個工作中的機器學習研究項目的慣性。)
但是,這又一次讓筆者想起了很多早期的搜索引擎。當筆者還是個孩子的時候,為了讓更好的搜索結果出現的頻率更高,筆者被教導如何組織搜索查詢關鍵詞。要避免使用簡短的詞,將重要的關鍵詞放在前面,不要輸入完整的句子。筆者們之所以這樣處理,是因為它的收益是值得的。GPT-3 可能與之類似。
筆者現在期望計算將發揮更大的作用,并看到模型的發展空間
出于筆者不想在本文中談及的原因,筆者不喜歡這樣的論點,即人們對人腦進行計算估計,采用摩爾定律曲線,推斷出這兩條曲線,然后宣布通用人工智能將在兩條曲線相交時發生。筆者認為他們把討論過于簡單化了。
然而,不可否認的是,在機器學習進程中,計算扮演著重要的角色。但人工智能的能力有多少是由更好的硬件讓筆者們擴展現有模型驅動的,又有多少是由新的機器學習理念驅動的呢?這是一個復雜的問題,特別是因為兩者并非獨立的。新的想法可以讓硬件得到更好的利用,而更多的硬件可以讓你嘗試更多的想法。筆者在 2015 年對這種可怕的簡化的猜測是,通用人工智能進步的 50% 將來自計算,50% 將來自更好的算法。在 2015 年的模型之間缺失了幾樣東西,還有一些東西將“通用”放在了通用人工智能中。筆者不相信依靠更多的計算能解決這個問題。
從那以后,有很多成功的例子都是由擴大模型來實現的,筆者現在認為這個平衡更像是 65% 的計算,35% 的算法。筆者懷疑許多類似人類的學習行為可能只是更大模型的突顯特性。筆者還懷疑,許多人類認為是“智能的”、“有意的”事物,其實都不是。筆者們只是想認為自己是聰明的、有意識的。筆者們不是,機器學習模型需要跨越的門檻也沒有筆者們想象的那么高。
如果計算發揮了更大的作用,那么時間軸就會加快。機器學習理念的瓶頸是機器學習社區的規模和發展,而更快的硬件是由全球消費者對硬件的需求推動的。后者是一股更強大的力量。
讓筆者們先回到 GPT-3。GPT-3 并不是你可以構造最大的 Transformer,因此,有理由建造更大的 Transformer。如果將大型 Transformer 的性能標度為 2 數量級(15 億個參數用于 GPT-2,1750 億個參數用于 GPT-3),那么再標度為 2 數量級也不會太奇怪。當然,也可能不會。(Kaplan 等人,2020 年)標度律應該從參數 $10^{12}$ 開始相互矛盾。這與 GPT-3 相差不到 1 個數量級。不過,這并不意味著該模式將停止改進。這只是意味著它會以不同的速度提高。筆者不認為有什么好的理由可以證明筆者們應該相信一個 100 倍的模型在質量上不會有什么不同。
尤其是你轉向多模態學習(multi-modal learning)的時候,更是如此。專注于 GPT-3 的文本生成是遺漏了主要的情節線程。如果你相信 傳言,OpenAI 一直致力于將音頻和視頻數據納入他們的大型模型中。到目前為止,他們的研究產出與此一致。MuseNet 是一個基于大型 Transformer 的音頻生成模型。最近的 Image GPT 是針對圖像的生成模型,也是基于大型 Transformer 的。
MuseNet 問世時,是不是當時最先進的音頻合成技術?不是。Image GPT 是圖像生成的最新技術嗎?也不是。專門針對音頻和圖像生成的模型架構比 MuseNet 和 Image GPT 做得更好。若專注于這一點,就忽略了 OpenAI 所要表達的觀點:一個足夠大的 Transformer 并非最先進的,但它在這些截然不同的數據格式上做得足夠好。還有比 MuseNet 更好的模型,但它仍然足夠支持一些愚蠢但也許有用的音頻完成。
如果你已經證明一個大型 Transformer 可以單獨處理音頻、圖像和文本,為什么不去試試同時對這三個進行測試呢?據推測,如果所有的模態都經過類似的神經網絡架構,大概這種多模態學習將會更容易,而他們的研究表明,Transformer 的工作足以成為這種架構。
OpenAI 可以利用他們已經擁有的關于大型 Transformer 的任何直覺,這一點很有幫助。一旦加入其他數據流,肯定會有足夠的數據來訓練更大的無監督模型。當然,你也可以只使用文本,但你也可以使用所有的網絡文本,所有的視頻和所有的音頻。只要你能夠擴展到足夠大的規模,就不應該有什么取舍。
大型 Transformer 會是筆者們將使用的最后一個模型架構嗎?不,也許不是。它們目前的一些弱點似乎難以解決。但筆者確實看到了它們的發展空間,可以做得比目前更多。模型架構只會越來越好,所以擴展現有模型的能力一定是 10 年或 20 年后,更強的模型架構的擴展版本所能實現的下限。現在可能發生的事情已經很有趣了,但也略微讓人擔憂。
整體局勢
在“You and Your Research”(《你和你的研究》中,Richard Hamming 曾提出一條著名的建議:“你所在的領域中,重要問題是什么?為什么你不去研究它們?”當然,通用人工智能是機器學習最重要的問題之一。
那么,對于機器學習來說,這個問題的自然版本是,“需要解決哪些問題,才能實現通用人工智能?”你希望這個領域在到達那里的路上會遇到哪些路標,這些路標之間的路徑有多少不確定性?
筆者覺得更多的路標開始成為焦點。如果你問 2015 年的筆者,筆者們將如何開發通用人工智能?筆者會告訴你,筆者根本就不知道怎么弄。在筆者認為與人類智力水平有關的任何挑戰上,筆者不認為筆者們取得了什么有意義的進展。但是,如果你問 2020 年的筆者,如何開發通用人工智能,盡管筆者仍然看到很大的差距,假設你很幸運,筆者對如何實現通用人工智能有所了解。這對筆者來說是最大的轉變。
對于大規模統計機器學習對人工智能的意義,人們一直存在分歧。深度學習的反對者不能否認大型統計機器學習模型非常有用,但深度學習的擁護者也不能否認它們非常昂貴。指出最先進的模型需要多少計算量,這是一個悠久的傳統。來看看這張照片,在李世石在與 AlphaGo 比賽圍棋時,就在 Twitter 上流轉開來了。
像這樣的論點很好地將討論引向模型與人類相比不足之處,并且戳中筆者們現有的模型可能存在的根本性缺陷,但筆者覺得這些論點還是過于以人為中心了。筆者們對人類如何學習的理解還不完全,但筆者們還是接管了這個星球。同樣,筆者們不需要對“理解”或“知識”的含義達成細粒度上的一致,人工智能系統就能對世界產生深遠的影響。筆者們也不必打造像人類一樣學習的人工智能系統。如果它們能夠完成大多數人類水平的任務,那么剩下的工作就是由經濟學來完成,不管這些系統是否是按照筆者們自己的形象制造的。
竭力拒絕
關于通用人工智能的爭論總是有點混亂,因為人們在重要的事情上,有著迥然不同的信念。一個有用的做法是,假設通用人工智能在短期內是可能的,確定在那個假設的未來可能是真實的,然后評估它聽起來是否合理。
這與提出通用人工智能不可能發生的理由是截然不同的,因為有很多理由說明通用人工智能不會出現。但是,為什么會出現通用人工智能,也有大量的理由。這項練習是要把更多精力放在后者上,并且看看對所有事情都說“No”是多么的困難。這有助于你將注意力集中在真正重要的論點上。
讓筆者試試看吧。如果通用人工智能很快成為可能的話,這可能會如何發生呢?嗯,這不需要更多的新想法。它很可能是基于現有模型的擴展,因為筆者認為,該領域沒有太多時間進行全面的范式轉換。而且,它還需要大量的資金,因為它需要基于規模化,而規模化需要資金。
也許有人開發了一個應用或工具什么的,使用的模型是 GPT-3 的尺寸或更大的尺寸,那是一個巨大的生產力倍增器。想象一下,第一臺計算機、Lotus Notes 或 Microsoft Excel 是怎么接管商業世界的。記住,是工具推動了進步!如果你的代碼速度加快 2 倍,那可能就是研究產出的 1.5 倍。上移或下移取決于實現過程中遇到瓶頸的頻率。
如果這種生產力的提升有足夠的價值,使經濟效益得以實現,而且一旦考慮推理和訓練成本,就能賺取凈利潤,那么就有生意可做了:從字面上說,大公司為你的工具買單。向客戶付費會帶動更多的資金和投資,從而為更多的硬件買單,從而使訓練規模更大。在云計算中,你購買多余的硬件來預測消費者需求的激增,然后出售對額外硬件的訪問權來賺錢。在這種情況下,你購買多余的硬件來預測消費者推理需求的峰值,然后將多余的算力提供給研究人員,看看他們會得出什么結果。
這種機制已經開始發揮作用了。你可能認得下圖所示的芯片。
上圖是第一個 TPU 的照片,正如 [Google 博客')(https://cloud.google.com/blog/products/gcp/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu) 中解釋的那樣:
盡管 Google 早在 2006 年就考慮為神經網絡打造特殊應用集成電路(Application-Specific Integrated Circuit,ASIC),但在 2013 年,情況變得緊迫起來。這時筆者們才意識到,神經網絡快速增長的計算需求可能需要筆者們將運營的數據中心數量增加一倍。
Google 需要在生產中運行更多的神經網絡。這帶動了更多的硬件投資。幾年后,筆者們現在發展到了 TPU v3,有傳言稱,Facebook 正在招聘人員為 AR 技術定制芯片。因此,硬件需求的故事不僅僅是可信的,而且很可能是真實的。如果你可以擴展到做一些不切實際的事情,那么就會激發研究和需求,使其變得切實可行。
在此基礎上,筆者們假設跨模態學習結果比預期的規模化學習更容易。與 GPT-3 相似的涌現性出現了。目標跟蹤和 物理直覺 被證明是自然發生的現象,只需從圖像中學習,不需要直接的環境交互或體現。通過更多的調整,更大的模型,甚至更多的數據,你最終會得到一個豐富的圖像。文本和音頻的特征空間。從頭開始訓練任何同喜很快就會變得不可思議。你為什么要這樣做?
在幾個領域中,先前的大部分工作都已經過時了,如視覺的 SIFT 特征、機器翻譯的 分析樹,以及語音識別的 音素 解碼步驟等。深度學習已經扼殺了這些方法。那些對這些技術一無所知的人正在研究神經網絡,在這三個領域都取得了最先進的成果。這有點讓人感到難過,因為有些過時的想法,確實對筆者們理解語言和語音的方式進行了很酷的分解,但事實就是如此。
隨著模型變得越來越大,并不斷顯示出改進的性能,研究結合了一部分方法,這些方法已被證明可通過計算進行擴展。同樣,這種情況在深度學習中也發生過,并且仍然在發生。當許多領域使用同一套技術時,你會得到更多的知識共享,這將推動更好的研究。CNN 對于考慮臨近值有很強的先驗性。它們最初用于圖像識別,但現在對基因組學(Nature Genetics,2019 年),以及音樂生成(van den Oord 等人,2016 年)都有影響。Transformer 是一種序列模型,最早用于語言建模。后來它們被用于視頻理解(Sun 等人,2019 年)。這種趨勢可能還會繼續下去。機器學習已經達到了這樣的一個地步,將某件事物描述為“深度學習”實際上是沒喲爻的,因為多層感知已經與足夠多的領域結合在一起,你無需在指定任何東西。也許過五年以后,筆者們會有一個新的流行詞取代“深度學習”。
如果這個模型擅長語言、語音和視覺數據,那么,人類有哪些“傳感器”輸入是這個模型所沒有的?無非就是與物理化體現掛鉤的傳感器,比如味覺、觸覺等。筆者們能說智能在這些刺激上遇到了瓶頸嗎?當然可以,但筆者卻不認為是這樣。你可以說只需要文字就可以假裝成人類。
在上述的場景中,有很多事情要做好。多模態學習必須奏效。行為需要繼續從規模擴展中出現,因為研究人員的時間主要是投入到幫助你實現規模化的想法中,而不是歸納先驗。硬件效率必須與時俱進,這包括清潔能源發電和修復不斷增加的硬件集群。總的來說,必須要做好的事情很多,這讓筆者覺得不太可能,但還是有值得認真對待的可能性。
筆者在筆者的故事中看到最有可能的問題是,對于語言以外的任何東西,無監督學習可能會更加困難。記住,在 2015 年,無監督學習為筆者們提供了用于語言的詞向量,而對于圖像卻沒有取得什么好的成績。一個合理的假設是,語言的組合特性使得它非常適合于無監督學習,而這在其他輸入模式中是不適用的。如果這是真的,筆者可能因為過分關注成功而高估了研究。
正式由于這些原因,筆者只是將筆者的估計調整了幾年。筆者并不認為 GPT-3 本身就是一個從根本上調整筆者所認為是可能的。筆者認為遷移學習比預期的要難也是一個障礙。但在網上,筆者看到的大多數理由都是加速筆者的估計,而不是放慢它們。
以上是有關通用人工智能什么時候實現的相關內容,希望對伙伴們有所幫助,想要了解更多資訊,請繼續關注可圈可點網站。