Scaling law也許是對的,但不會是全部,因為scaling law本身代表一個非常悲觀的未來——scaling law的本質是,用指數級的數據增長,來獲得幾個點的收益。最終人類世界可能會有很多長尾需求,需要人類的快速反應能力去解決,這些場景的數據本身也很少,LLM做不到。Scaling law發展到最后,可能每個人都站在一個數據孤島上。
作者|甲小姐 劉楊楠
對于研究者而言,預設一個判斷、押注正確的方向,往往會決定學術成就的高遠。當一切尚未驗證時,多少需要樸素的直覺來支撐,而樸素直覺的背后,往往是一些關于是與非、能與否的底層信仰。
在人工智能領域,底層信仰的作用在被放大。比如,此刻人工智能有一些根本性的研究底色:Scaling law是否是唯一至上的綱?
大模型的scaling law最早由OpenAI在2020年的一篇論文中提出,其內涵是,大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數/深度/寬度)基本無關。
放眼全球,很多人都將scaling law奉為圭臬,但聚光燈外也不乏一些質疑scaling law的“少數派”。田淵棟就是其中之一。
“雖然現在scaling law很火,但一味跟風,亦步亦趨,并不是我的風格?!?/span>田淵棟告訴「甲子光年」。
田淵棟博士畢業于卡耐基梅隆大學機器人系,如今是硅谷小有名氣的華人科學家。今年是田淵棟在Meta的第十年。他任Meta FAIR研究員、高級經理,也曾獲2021年國際機器學習大會(ICML)杰出論文獎提名,及2013年國際計算機視覺大會(ICCV)馬爾獎提名。田淵棟的“組長”是圖靈獎得主楊立昆(Yann LeCun)。
2013~2014年,田淵棟曾在Google無人駕駛團隊任軟件工程師,這里種下了他對scaling law懷疑的種子?!拔耶嬤^一張圖,一開始數據量越大,模型performace越好,但模型離人類越近就越難獲得新的數據,模型就越來越難以改進,最后總會有些corner case解決不了,這是Data driven(數據驅動)最大的問題。”
2017年,田淵棟開始嘗試“其他東西”,瞄準AI的可解釋性。
2019年,OpenAI聯合創始人、首席科學家伊利亞·蘇茨克維(Ilya Sutskever)找到田淵棟,希望他加入OpenAI?!八f他要做語言模型,我說我要嘗試理解神經網絡模型的工作原理,所以就沒去。總之我覺得我這條路會一直走下去。”
五年后的今天,即使在大模型將scaling law推上神壇的當下,他依然堅信,scaling law也許是對的,但不會是全部,他告訴「甲子光年」:“Scaling law本身代表一個非常悲觀的未來?!?/span>
他所押注的是一條看似風險更大的路:“我們最終能理解模型到底是如何被訓練出來的?!?/span>
田淵棟最近的工作表排得非常密集,譬如在4月29日剛剛參與發表了AdvPrompter,可以兩秒內生成針對大語言模型的對抗性攻擊,這樣生成新的數據集并且微調大模型,能夠進一步增強模型的魯棒性。
AdvPrompter:面向大語言模型的快速自適應對抗性提示
本文,甲小姐在硅谷對話田淵棟。
1.談趨勢:“技術的最高境界是變成水和空氣”
從計算的角度來說,交互一定要基于生成。
甲小姐:黃仁勛在今年GTC大會上說“The future is generative.(未來是生成的。)”你同意他的觀點嗎?
田淵棟:他說的有道理。
首先從技術上看,模型數據“從哪來”“怎么訓練”是未來限制AI發展的關鍵問題。如果不是生成式模型,需要找人一直標數據,人是無法把現實世界所有數據標完的。生成式的好處是不用找人標數據,直接生成缺失的部分,這套方法已經被證明取得成功了。
第二,從人機交互方式來看,搜索不是最自然的方式。技術的最高境界是變成水和空氣,你感覺不到它的存在,你不用知道它的原理,就能獲得技術帶來的便利。例如我們擰開水龍頭就有自來水。AI也一樣,人與人交互最簡單的方法就是聊天,對話比搜索更原始,也更能滿足根植于人類內心深處的交流欲望。
甲小姐:但交互不一定要生成,生成式AI也不一定需要交互。我們也可以把現在的搜索框換成對話框,但背后支撐對話的不是生成式AI,而是搜索引擎?
田淵棟:搜索是后天習得的,但對話式交互已經經過了幾萬年的演化,人類從出生開始就學習說話,這種方式對人類的“吸力”特別強。
如果之后出現互動小說、互動視頻甚至是可互動的三維世界,就會將生成式AI和交互百分之百結合起來。每個人都生活在一個平行世界,通過對話就能感受不同體驗,這時的人機交互就回到了人類最原始的狀態,人類一定會陷進去。
甲小姐:對人類有很強“吸力”的只是可交互的世界——這個世界一定是生成的嗎?
田淵棟:你這個問題很好?!翱山换ァ迸c“生成式”確實是兩個獨立的概念。但你和別人交互一定要有接口,接口一定是高維的、豐富的,越接近人類感官越好,所以它一定是生成的。
甲小姐:不一定。我們做個類比,生成式的世界更像一個開放世界游戲,每個人都通過各類交互在開放世界體驗不同的故事線。而在劇本殺里玩家也可以在顆粒度很細的、高維的平行世界探索,收獲不同體驗,但劇本殺不是生成式的。
田淵棟:如果是后者,就需要很多很多人來創作劇本。從計算的角度來說,交互一定要基于生成,否則就需要無限的資源、人力去標數據或創作內容。
甲小姐:能否給“生成式”下一個定義?
田淵棟:生成式和數據庫是對應的。數據庫里是大量靜態的、固定的,已經被檢驗過真實性的數據,但數據庫無法用有限的數據來應對人類世界無窮的多樣性需求,而生成式能解決這個問題。從供給的視角看,數據庫和生成式是一段連續光譜的兩端——一端是由人類提供所有數據的世界;另一端是所有數據交由AI生成的世界。
甲小姐:合成數據算哪端?
田淵棟:這就是我說的“連續光譜”的含義,中間可以有各種組合,比如說50%由人類提供,50%由AI生成,或者三七開都是可以的。
“生成”與“非生成”的本質區別在于是否需要人類輸入很多數據,輸入的內容是不是需要大量重復勞動?是不是能做到教孩子那樣,指點一下就能舉一反三?比如要用3D引擎搭建一個虛擬三維世界,就需要人類把真實世界中的每樣東西都進行三維掃描,然后放進去,這就需要大量有經驗的高素質工程師;但一個厲害的雕塑師,并不需要看過、摸過世界上所有的物件,就可以把已有的物品雕刻得惟妙惟肖,也可以創造出新的從未見過的物件出來。
生成式AI其實給人的就是這種期許。只要有足夠的數據,通過輸入prompt,模型會自己生成一個未知場景給人體驗,這就減少了工程師的消耗。工程師不可能24小時工作,但AI可以,而且復制一個AI很容易,但復制工程師非常難,生成式AI會讓生產力大幅提升?,F在的問題是,好的小說、劇本非常少,如果AI能夠生成高質量的內容,很多問題就迎刃而解了。
2.談判斷:“scaling law代表非常悲觀的未來”
人類永遠只會想自己沿著這條分叉走能拿多少利益,很難會主動開辟全新的分叉,一定會有一個短視的階段。只有在某個方向撞墻之后,大家才會發現,scaling law是有問題的,才會往回走。
甲小姐:很多人都將scaling law奉為圭臬,你似乎不是它的擁躉?
田淵棟:我認為scaling law離真正的Data efficiency(數據效率)的AGI,至少還有2-3個break through。
Scaling law也許是對的,但不會是全部,因為scaling law本身代表一個非常悲觀的未來。Scaling law的本質是,用指數級的數據增長,來獲得幾個點的收益。
最終人類世界可能會有很多長尾需求,需要人類的快速反應能力去解決,這些場景的數據本身也很少,LLM拿不到。Scaling law發展到最后,可能每個人都站在一個“數據孤島”上,孤島里的數據完全屬于每個人自己,而且每時每刻都不停產生。專家學會和AI融合,把自己變得非常強,AI也代替不了他。
甲小姐:做過自動駕駛相關的人似乎都對scaling law非常悲觀,你不完全相信scaling law跟你做無人車的經歷有關嗎?
田淵棟:是有關系。為什么我后來不做自動駕駛了?因為我覺得data driven模式有很多問題。我畫過一張圖,一開始數據量越大,模型performace越好,但模型離人類越近就越難獲得新的數據,模型就越來越難以改進,最后總會有些corner case解決不了,這是最大的問題。而且車比LLM更難,因為在車上模型表現必須達到100分才能上路,99分就相當于0分。我當時就覺得很難,搞不清,所以第一個跑了。
甲小姐:為什么很多人如今篤信scaling law?
田淵棟:這是一個范式轉變。之前NLP領域有一個笑話,每開除一個語言學家, NLP模型的性能都會上升。過去很多NLP模型訓練規則是人類從數據中總結出來,但那些無法用語言或符號清晰定義的問題,機器或許會總結得更好。
Scaling law之后一定會有新的技術分叉,但如果當前的技術分叉沒走完,大多數人是不會更換路線的。人類永遠只會想自己沿已有的分叉走能拿多少利益,很難主動開辟全新的分叉,一定會有一個短視的階段。只有在某個方向撞墻之后,大家才會發現scaling law是有問題的,才會往回走。
甲小姐:今天人們會把大模型定義為“基礎設施”,它是否會像高速公路等基礎設施一樣,只需一次性投入,OpenAI通過scaling law把人類有史以來大部分數據都裝進大模型,后續人們只需要不斷填補新數據,繼續scale up就好。
田淵棟:模型跟高速公路不一樣。
高速公路的建設有標準流程,但是訓練大模型沒有標準,很多東西都要調。每一次訓練都可能有新的訓練方式和策略,例如到底是把以前的數據拿過來,再放入一些新數據;還是把數據打散重組,每個batch放入不同的數據?不同的數據策略得到的訓練結果不同。
甲小姐:為什么不在之前的預訓練結果上繼續訓練?
田淵棟:繼續訓練會有問題。也許上一個模型已經被舊數據訓練壞了,比如有些偏見,或者對一些事件有錯誤理解,這些問題很難用新數據把它扳過來,更好的方式是從頭開始預訓練。如果只是微調,那從模型開始就可以。
甲小姐:微調無法把一個壞模型變成好模型嗎?
田淵棟:可以這樣做,但沒有特別成功的例子。因為預訓練跟微調所需的計算資源差距太大了,預訓練要用成千上萬塊卡,微調只用幾塊卡,你不能指望靠微調把一個壞模型變好。
除非有一天我們對訓練過程有更本質的理解,從本質上解決梯度下降效率低下的問題,從而找到新方法?,F在模型訓練過程仍是一個“黑盒”,我們知道模型在做加減乘除,但并不知道它做加減乘除時,是否在運行某個高層次的算法去尋找數據的內在規律。
甲小姐:這個黑盒似乎很難完全透明,畢竟人可以把大腦做成非常細顆粒度的切片,卻無法理解大腦的智慧。
田淵棟:搞明白大腦的運行機制,難度是另外一個級別了,在AI模型的基礎上還要再加幾層復雜度,很多生物指標的測量都很難,而且會有很多干擾因素,大腦還要考慮低能耗和慢上幾十萬倍的通信和響應速度(毫秒級對應硅基是納秒級),抵御外來入侵者的免疫系統,冗余設計,幾億年的“祖傳屎山”等等。所以生物學和腦科學真是太難了,需要數十年如一日,幾代人前赴后繼的努力,我非常敬佩他們。
甲小姐:今年OpenAI推出Sora,點燃了一波關于多模態的討論。有人認為語言才是主軸,多模態是集體跑偏,比如百川智能王小川;也有人認為視頻才是終局,比如出門問問李志飛。你怎么看這些爭論?
田淵棟:應用方面,多模態應該是主流。但在基礎研究方面,引入多模態后并沒有看到模型有突破性表現,因為語言、代碼等結構化數據的信息密度其實是最高的。
甲小姐:OpenAI將Sora定義為“世界模擬器”,業內很多人對此也有質疑,比如Yann LeCun就認為Sora不是世界模型。你認同嗎?
田淵棟:對于世界模型的概念,每個人都有不同的看法。我對“世界模型”的定義是:只要能預測未來的具體形態,都是世界模型。Sora是世界模型,它生成的每一幀都是對世界的預測,可以從一開始預測后面,也可以從最后反推前面。
甲小姐:站在行業研究者的角度,你認為2024年可能會發生哪些重要事件?
田淵棟:GPT-5的發布肯定值得關注,要看它的工作效率是否更接近真人。
3.談選擇:“還是要做一些獨一無二的工作”
“像不像人”和“有沒有像人一樣高的效率”是兩回事。
甲小姐:你現在的核心研究方向是什么?
田淵棟:雖然現在scaling law很火,但一味跟風亦步亦趨,并不是我的風格。寬泛地看,我的研究方向目前屬于LLM,像LLM快速推理和高效訓練,及如何提高LLM的決策規劃能力,等等。但從根本上來說,我是在做理解模型工作原理的基礎研究,是一個偏理論的方向,從這些研究出發,就有很多對模型工作方式的理解,然后這些思路就可以用來提高模型的性能和效果。
甲小姐:你從什么時候開始做這件事?現在有明顯進展嗎?
田淵棟:我從2017年開始做,現在慢慢開始有些進展,對神經網絡或Transformer的工作原理已經有一定理解,比如說Transformer如何從數據中自動學習出結構,又比如說在決策方面如何混合已有的決策方案和現在的神經網絡方法。這些都可以繼續往下挖。
其實Ilya 2019年找過我,希望我加入OpenAI,當時GPT-3還沒出來,是OpenAI混得最慘的時候。他說他要做語言模型,我說我要嘗試理解神經網絡模型的工作原理,所以就沒去??傊矣X得我這條路會一直走下去。
甲小姐:你有團隊嗎?
田淵棟:我有很多單人工作,但也有團隊。我的團隊不只做understanding(理解)的理論研究,還有很多強application(應用)的工作。
甲小姐:你現在做的事情跟LLaMA關系大嗎?
田淵棟:LLaMA屬于剛成立的GenAI Team,我們屬于FAIR,現在有600多人,是一個比較獨立的研究組。LLaMA最早是FAIR做的,后來公司就考慮成立一個團隊專門迭代LLaMA,因為大模型是相當重要的。之后有一些工作像AdvPrompter有比較大的應用價值,應該會和LLaMA這邊合作。
甲小姐:LLaMA或Gemini這種明星項目,會把其他部門的人都吸引過去嗎?
田淵棟:那不好說,有些人可能想轉,有些人反而不想轉。大團隊有好處也有壞處,好處是有更多資源,壞處是你的貢獻可能只有千分之一。Gemini有幾百個核心貢獻者,多了就沒有什么意義了,你可能只負責改改數據,洗洗數據,或者寫寫腳本什么的。還是那句話,每個人都有自己獨一無二的地方,就看大家工作的目的是為什么了。
甲小姐:你會直接向Yann LeCun匯報嗎?
田淵棟:Yann現在是VP&IC,不管人。他還是主要做技術上的領導,在各種場合發表言論,以這種方式影響大家。
甲小姐:你認同他對AI發表的各種言論嗎?
田淵棟:有些我相當認同。比如他說“LLM不是未來,還有很多新的架構需要調整”,這我覺得是對的。現在LLM的方式還是有問題,它的學習效率沒有人那么高。你可以說LLM就是AGI,但AGI就是拿一堆數據堆一個很強的model嗎?不一定。
現在人類90%的工作都是重復性勞動,LLM可以通過大量數據完成,剩下10%的個性化工作數據非常少,LLM做不了,但人類還是能很快完成。我認為AGI的定義需要修改,AI能用和人類同樣的效率,甚至更高的效率學習新知識,完成一些從未見過的工作。但不管如何GPT-4這樣水平的AI已經能很大程度影響這個世界了。
甲小姐:有種觀點認為,AGI沒必要像人。
田淵棟:“像不像人”和“有沒有像人一樣高的效率”是兩回事。如果AI非常高效,它不像人也可以。只是從效率上看,現在的模型還遠遠達不到人類水平。人一輩子能看多少東西?但人的生成能力遠遠強于AI模型,這是AI最大的問題。
甲小姐:你的觀點似乎和LeCun一脈相承。
田淵棟:有點接近吧,他也在不停尋找scaling law之外的路徑。這就是硅谷有意思地方,每個人都有不同的想法,也有人彼此競爭,但沒人知道到底什么是對的。
4.談信仰:“我相信基于神經網絡的AI模型是可解釋的”
硅谷其實沒有什么主流、非主流之分,因為每個人都會有自己的方法,并不是所有人都要學OpenAI,如果都和OpenAI一樣,那我就叫OpenAI了。
甲小姐:OpenAI已經在scaling law的路徑上取得很大進展,但你做的方向仍然前路未卜,這會讓你有種無力感嗎?
田淵棟:還好,硅谷每個人都有自己的bet(押注),都有自己對世界的理解。
甲小姐:你的bet是什么?
田淵棟:我相信基于神經網絡的AI模型是可解釋的,我們最終能理解模型到底是如何被訓練出來的。
甲小姐:理解到什么程度算“理解”?
田淵棟:我們要理解神經網絡學習的動力學機制,如何從大量數據中學到它們的結構,什么樣的結構是可以被神經網絡學到的,什么樣的結構不可以,需要多少樣本,效率有多高,并用數學的方式把它的整個學習過程描述出來,并在此基礎上找到更好的訓練神經網絡方法。
甲小姐:你的bet似乎有些“非主流”。
田淵棟:我是非主流bet,但這沒關系。硅谷其實沒有什么主流、非主流之分,因為每個人都會有自己的方法,并不是所有人都要學OpenAI,也許下一次科技革命的驅動就是從這些非主流開始的。另外我們也有很多LLM應用方面的工作有立即可用的價值,所以就算神經網絡真的無法解釋,人類除了拼命往里面塞數據、堆算力之外沒有別的辦法,那至少還是有飯吃的。
甲小姐:對于想要入局AI的人來說,是不是要想大航海時代一樣,先下一個bet,再揚帆起航?
田淵棟:如果你想做得很好的話,一定要有自己的bet。如果你不make a bet,你能做的就是follow other people,很難走得更遠。有Bet的好處在于,你可以一輩子一直走下去,人生不會覺得無聊。
甲小姐:OpenAI的成功會讓你懷疑自己的bet嗎?
田淵棟:我驚訝于他們做得挺好,可能會適當調整下自己的策略,但是我依然認為自己是正確的。
甲小姐:你曾在谷歌無人車團隊工作1年多,加入Facebook也有近十年,應該有很多VC慫恿你創業吧。
田淵棟:是有很多。
甲小姐:你不為所動?
田淵棟:我喜歡做一些比較厚的東西,更適合在公司做研究。另外,我家里人也比較保守,會有些顧慮。
甲小姐:你的方向很獨特,跟你競爭的人不會特別多。
田淵棟:問題在于商業模式怎么做。
甲小姐:OpenAI也沒有商業模式。
田淵棟:但OpenAI也只有一個。
我比較清楚自己的長處和短處。我不太擅長從1到100的問題,而比較擅長從0到1。從0到1的事情我會在研究部門做。去年確實也有VC聯系我,想要投資做AI生成電影。我當時真的有點動心,因為我自己也寫科幻小說,當然希望自己的小說能夠“啪”一下變成電影,但還是沒走。我覺得要做從1到100的事情,世界上有很多很多人做得比我好得多,代碼寫得比我快,頭腦比我靈活,相比之下,我自己沒有太大優勢。
當然如果以后條件發生變化,走不同的路也是有可能的。
5.談終局:“每個人都找到獨一無二的方式去探索世界”
我們應該放棄這種執念,認為大腦是人類的控制器,其實不是這樣子。我們身體的每一部分都對我們的行為表現有一票投票權,只是以后AI也會有一票而已。
甲小姐:當AI解決了人類社會99%的問題,人類應該如何自處?
田淵棟:最終的結局應該是,每個人都找到獨一無二的方式去探索世界。
甲小姐:可能到時候人類已經沒有動力探索世界了。
田淵棟:沒有動力就可以躺平,沒問題。社會應該為所有人提供躺平選項,只有這樣才能讓大家的創造力充分釋放。
人人都“為五斗米折腰”的結果就是,所有人都有同質化傾向,這對未來發展不利。你跟硅谷的人聊會發現,他們不知道害怕,覺得“我就是要上”“我就是要搞事情”。比如Ilya在谷歌已經很牛X了,但他還是離開Google,白手起家,這都是信念驅動的。
甲小姐:現在國內整體的創業投資風險偏好非常低。
田淵棟:當你“求生存”的時候,所有人都會想怎么賺錢,怎么找到保守的最佳路徑,最后的結果就是大家都很同質化,但是未來世界不需要這些。每個人都應該有勇氣去走一條別人沒走過路,把這條路上的風雨分享給別人。
甲小姐:當每個人都擁有個性化的世界,這種經驗還有意義嗎?比如高考秘籍很珍貴,是因為大家都在高考,而不是自己一個人去高考。
田淵棟:別人有再多經驗,都不是你的經驗。這個世界總有一部分人會渴求自己尚未見過的世界,那些都是AI生成不了的,或AI沒有足夠的數據實現的。
甲小姐:移動互聯網時代我們已經感受到劇烈的信息爆炸,但生成式世界中,所有信息都真假難辨,想要了解世界真相的人可能窮其一生,對世界的理解都不到萬分之一,從而產生巨大的空虛感。
田淵棟:人類窮盡一生也無法完全理解世界,這本來就是事實。但最后人類會和AI結合的。
甲小姐:AI不一定需要人類,現在模型已經可以自己訓練自己了。
田淵棟:這就涉及到personalization的問題。別人做再好都是別人的,我做得再差也是我自己的。人類可以和別人分享自己的思想。而且AI也需要人,因為它需要人來提供數據。最終每個人或許都會和AI拼起來,每個人都equip with AI,成為一個AI與人的復合體,大家還是一樣的個體。
甲小姐:人與AI的結合中,誰的意識會占主導?
田淵棟:我覺得自我意識起源于人類大腦對自己的建模。從進化上來看,這個很有必要。因為人要根據周圍的環境,及自身的狀態,來決定自己的行為。比如看到一只老虎,是要逃跑,還是要跟它搏斗?身體素質好,有趁手的武器,再加上周圍有幫手,可能就會選擇搏斗;但要是孤身一人身上有傷,那肯定得逃。這個就要有對自身的建模,才能有下一步的行動。做得好就活下來了,做不好就被自然界淘汰了。
久而久之,這個“自我”的模型就會慢慢擴展,也慢慢細化。如果一件物品和人本身的聯系足夠緊密,那么自我模型在計算的時候,也就會自動把它納入在內,這個在武俠小說里就是所謂“人劍合一”了。
如果AI和人類完全融合,可能會形成一個整體意識,你分不清某個念頭到底是AI產生的還是你自己產生的,也不會有一方控制另一方的問題。我們現在手機已經算是每個人的一個器官了,手機給了一個彈出信息,你據此決策,那么是手機控制了你么?現在也有研究發現人體腸道菌群會改變人的情緒,那么,是菌群控制了你么?
所以,我們應該放棄“大腦是人類的控制器”的執念,其實不是這樣子。我們身體的每一部分都對我們的行為表現有一票投票權,只是以后接入的AI也會有一票而已。當然,現在的AI還只是工具。