扎克伯格誓要把開源進行到底。
作者|蘇霍伊
編輯|趙健
Llama 3.1終于來了。
美國當地時間7月23日,Meta正式發布Llama 3.1。其包含8B、70B 和405B三個規模,最大上下文提升到了128k。Llama目前開源領域中用戶最多、性能最強的大型模型系列之一。
本次Llama 3.1的要點有:
1.共有8B、70B及405B三種版本,其中405B版本是目前最大的開源模型之一;
2.該模型擁有4050億參數,在性能上超越了現有的頂級AI模型;
3.模型引入了更長的上下文窗口(最長可達128K tokens),能夠處理更復雜的任務和對話;
4.支持多語言輸入和輸出,增強了模型的通用性和適用范圍;
5.提高了推理能力,特別是在解決復雜數學問題和即時生成內容方面表現突出。
Meta在官方博客中寫道:“時至今日,開源大語言模型性能落后于閉源模型仍是常態。但現在,我們正在迎來一個開源引領的新時代。我們公開發布Meta Llama 3.1 405B是世界上最大、功能最強大的開源基礎模型。迄今為止,所有Llama版本的累計下載次數已超過3億,而這只是一個開始?!?/span>
開源與閉源的爭論一直是技術領域的熱點話題。
開源軟件更為透明性和靈活性,允許全球開發者共同審查、修改和改進代碼,從而推動了技術的快速創新和進步。而閉源模型通常由單一公司或組織開發和維護,它們能提供專業的支持和服務,確保軟件的安全性和穩定性。但這種模式也限制了用戶的控制權和自定義能力。
此前,一直是閉源模型略勝一籌。直到Llama 3.1的發布,在持續激烈的開源與閉源之爭寫下濃墨重彩的一筆:開源模型終于可與閉源模型巔峰一戰了。
根據Meta提供的基準測試數據,最受關注的405B版本,從性能上已經可與GPT-4和Claude 3相媲美。其中Human Evaluation主要用于評估模型在理解和生成代碼、解決抽象邏輯問題方面的能力。在與其他大型模型的競爭中,Llama 3.1 405B顯得略勝一籌。
Llama 3.1與GPT-4、Claude 3.5旗鼓相當,來源:Meta
斯坦福大學計算機科學系和電子工程系副教授、人工智能實驗室主任吳恩達(Andrew Ng)在社交媒體上稱贊“Meta和Llama團隊對開源的巨大貢獻”。他表示:“Llama 3.1增加了上下文長度和改進了功能,是送給每個人的奇妙禮物?!辈⑾M跋窦又萏嶙h的SB1047這樣愚蠢的法規不會阻止這樣的創新”。
吳恩達的社交媒體,來源:X
圖靈獎得主、Meta首席人工智能科學家楊立昆(Yann LeCun)引用了《The Verge》對Llama 3.1的性能描述——Meta發布了迄今為止最大、最優秀的開源人工智能模型:Llama 3.1在某些基準測試上超越了OpenAI及其他競爭對手。
楊立昆的社交媒體,來源:X
有趣的是,昨天405B版的Llama 3.1疑似在HugginFace、GitHub上被“偷跑”,爆料人發出的評測數據與今日正式發布的版本信息基本相符合。
Meta的創始人兼CEO馬克·扎克伯格親筆撰寫了一篇題為《開源人工智能是未來之路(Open Source AI Is the Path Forward)》的長文章,詳細闡述了開源對開發者、對Meta以及對全球來說為何具有重要意義。
他預測到今年年底,Meta AI將超過ChatGPT,成為使用最廣泛的助手。
他還表示:誓將開源進行到底。
《Open Source AI Is the Path Forward》的文章切片,來源Meta
1.Llama 3.1的煉成
在模型架構方面,作為Meta迄今為止最大的模型,Llama 3.1 在超過 15 萬億個token的數據上進行訓練,預訓練數據日期截止到2023年12月。
為了在合理的時間內在如此大規模上實現訓練并取得期望的成果,Meta優化了整個訓練堆棧,用了超過16000塊H100,405B是第一個在此規模上訓練的Llama模型。
Llama 3.1文本生成過程中的Transformer模型架構,來源:Meta
為了最大限度確保訓練的穩定性和便捷性,Meta選擇了標準的僅解碼器Transformer模型架構進行微調,而沒有采用當前流行的混合專家模型(MoE)架構。
這一決策使得Llama 3.1在支持長達128K的上下文長度時,依然能夠保證短文本的高質量輸出,實現了對長短文本的靈活處理,而非僅專注于長文本。
同時,研究團隊在實施了一種迭代的后訓練方法,通過每一輪的監督式微調和直接偏好優化,生成高質量的合成數據并提升模型的各項功能。與先前版本相比,Llama 3.1增加了預訓練和后訓練數據的數量和質量,引入了更細致的預處理和管理流程,以及更嚴格的質量保證和過濾技術。
根據語言模型的擴展規律,Llama 3.1在性能上超越了之前使用相同訓練程序的小型模型。
為了應對大規模的405B模型的運行需求,Meta把模型數據從16位(BF16)量化減少到8位(FP8),這大幅降低了計算資源的需求,令模型能夠在單一服務器節點上運行。
在Llama 3.1 405B模型的指令和聊天微調方面,開發團隊致力于提升模型對用戶指令的響應性、實用性和質量,同時確保高度的安全性。
在后訓練階段,團隊在預訓練的基礎上進行了幾輪調整。每輪包括監督式微調(SFT)、拒絕采樣(RS)和直接偏好優化(DPO)。此外,團隊使用合成數據生成來產生絕大多數 SFT 示例,這表示他們并不全然依賴真實世界的數據,而是通過算法生成的數據來訓練模型。
同時,團隊還使用多種數據處理方法來過濾這些數據,確保質量最高,并擴大微調數據的應用范圍。
Meta也在探索一種新策略,即使用405B模型作為70B和8B模型的“教師模型”,從而從大型模型中提煉出適合各行各業需求的小型定制模型。這種做法與GPT-4o mini的策略不謀而合,即“先做大,再做小”。
前OpenAI創始成員之一Andrej Karpathy曾對GPT-4o Mini做出評價:“模型必須先變大,然后才能變小。因為我們需要它們(自動)幫助重構訓練數據,使其成為理想的、合成的格式?!彼赋?,這種方法能有效地將大模型的深度和廣度知識遷移到更實用、成本更低的小型模型中。
作為開源模型路線的領頭羊,Meta在Llama模型的配套設施上也給足了誠意。
Llama系統設計為一個綜合的框架,能夠整合多個組件,包括調用外部工具。Meta的目標是提供一個更廣闊的系統,讓開發者能夠靈活地設計并創建符合自己需求的定制產品。
為了在模型層之外負責任地發展AI,研究團隊發布了一個包含多個示例應用和新組件的完整參考系統,例如多語言安全模型Llama Guard 3和提示注入過濾器Prompt Guard。這些應用是開源的,可供社區進一步開發。
為了更好地定義組件接口并促進其在行業中的標準化,研究人員與行業、初創公司和廣泛社區合作,并在GitHub上發布了“Llama Stack”提議。這是一套標準化接口,能夠簡化工具鏈組件(如微調、合成數據生成)和代理應用程序的構建。
根據Meta提供的基準測試數據顯示,Llama 3.1 405B 在NIH/Multi-needle 基準測試的得分為 98.1,在性能評分上與GPT-4和Claude 3.5等不相上下。405B版本以出色的整合海量文本信息能力在ZeroSCROLLS/QuALITY基準測試的得分為95.2,對于關注RAG性能的AI應用開發者而言十分友好。
Llama 3.1與GPT4等閉源模型相比較,來源:Meta
Llama 3.1與Mistral 7B Instruct等開源模型相比較,來源:Meta
Llama 3.1 8B 版本顯著優于 Gemma 2 9B 1T 和 Mistral 7B Instruct,且相較于前代Llama 3 8B的表現有了明顯的提升。同時,Llama 3.1 70B 版本甚至超過了GPT-3.5 Turbo。
根據Llama團隊的官方報道,他們在150多個多語言基準數據集上對這些模型進行了深入的性能評測和大量的人工測試。結果顯示,Llama的頂級模型在各種任務上能夠與市場上的頂尖基礎模型如GPT-4、GPT-4o和Claude 3.5 Sonnet等相媲美。同時,相較于具有類似參數規模的封閉和開源模型,Llama的小型版本同樣表現出了強勁的競爭力。
2.開源、閉源模型之爭
開源模型到底能否超越閉源模型?
這個問題從去年開始就備受爭議。兩種模型的發展道路代表著不同技術哲學,它們在促進技術進步和滿足商業需求方面各有千秋。
比如Llama 3.1是一個開源的大模型,它允許研究人員和開發者訪問其源代碼,人們可以自由地研究、修改甚至改進模型。這種開放性鼓勵了廣泛的合作和創新,讓來自不同背景的開發者能夠共同解決問題。
相對地,ChatGPT是由OpenAI開發的閉源模型,雖然它提供了API訪問,但其核心算法和訓練數據未完全公開。GPT-3的閉源特性使得其能夠在商業化路徑上更加穩健,同時控制性確保了產品的穩定性和安全性,在處理敏感信息時更受企業信賴。但這種封閉性也限制了外部研究者對模型的完全理解和創新能力。
去年5月,外媒曾報道谷歌流出一份文件,主題是“我們沒有護城河,OpenAI也沒有。當我們還在爭吵時,開源已經悄悄地搶了我們的飯碗”。同年Meta發布開源大模型Llama 2后,楊立昆表示,Llama 2將改變大語言模型的市場格局。
人們對于Llama系列模型所引領的開源社區備受期待。此前,最先進的閉源模型GPT-4始終略勝一籌,雖然當時的Llama 3 與之相比差距已經很小了。
大模型領域最權威的榜單是大模型競技場(LLM Arena),采用了國際象棋一直采用了ELO積分體系。它的基本規則是,讓用戶向兩個匿名模型(例如 ChatGPT、Claude、Llama)提出任何問題,并投票給回答更好的一個?;卮鸶玫哪P蛯@得積分,最終的排名由累計積分的高低來確定。Arean ELO收集了50萬人的投票數據。
大模型排行榜一覽,來源:LLM Arena
在LLM Arena排行榜上,OpenAI的GPT-4o目前占據榜首。排名前十的模型全部為閉源。雖然閉源模型在排名上仍遙遙領先,但開源與閉源模型之間的差距并非李彥宏在2024年百度AI開發者大會上所言越來越大,實際上正在逐漸縮小。
WAIC期間,李彥宏表示:“開源其實是一種智商稅”。來源:百度
直到今天Llama 3.1的發布,開源模型終于可與閉源模型巔峰一戰了。
對于開源、閉源模型哪個更優,,「甲子光年」曾與多位AI行業從業者討論過。業內普遍認為:往往取決于個人立場,并不是簡單的黑白二分問題。
開源和閉源問題并非純粹技術上的區別,更多關乎于商業模式的選擇。目前無論是開源還是閉源大模型,都尚未找到一個完全成功的商業模式。
那是什么因素影響了開源和閉源模型之間的能力差異呢?
微博新技術研發負責人張俊林指出,模型能力的增長速度是一個關鍵因素。如果模型能力的增長速度很快,意味著短時間內需要大量計算資源,這種情況下閉源模型因為資源優勢而更有優勢。相反,如果模型能力增長較慢,則開源與閉源之間的差距會減小,追趕速度也會加快。
他認為,未來幾年內,開源和閉源模型的能力差異將取決于“合成數據”技術的發展。如果未來兩年內“合成數據”技術取得顯著進展,兩者的差距可能會增大;如果沒有突破,則兩者的能力將趨于相近。
總體而言,“合成數據”將成為未來大語言模型發展的關鍵技術。
開源還是閉源,本身并不決定模型性能的高低。閉源模型并非因為閉源而領先,開源模型也并非因為開源而落后。甚至恰恰相反,模型是因為領先才選擇閉源,因為不夠領先不得不選擇開源。
如果一家公司做出了性能很強的模型,它就有可能不再開源了。
比如法國的明星創業公司Mistral,其開源的最強7B模型Mistral-7B和首個開源MoE模型8x7B(MMLU 70)是開源社區聲量最大的模型之一。但是,Mistral后續訓練的Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是閉源模型。
目前性能最好的閉源模型與性能最好的開源模型都是由大公司所主導,而大公司里又屬Meta的開源決心最大。如果OpenAI不開源是從商業回報的角度來考慮,那么Meta選擇開源讓用戶免費試用的目的又是什么呢?
在上一季度的財報會上,扎克伯格對這件事的回應是,Meta開源其AI技術是出于推動技術創新、提升模型質量、建立行業標準、吸引人才、增加透明度和支持長期戰略的考慮。
而這次扎克伯格在《開源人工智能是未來之路(Open Source AI Is the Path Forward)》中詳細地解釋了“為什么開源AI對開發者有利”:
在與來自世界各地的開發者、CEO和政府官員的對話中,我經常聽到他們強調需要培訓、微調和優化他們自己的模型。
每個組織都有其獨特需求,不同規模的模型可針對這些需求進行優化,使用特定數據進行訓練或微調。簡單的設備上任務和分類任務可能需要較小的模型,而更復雜的任務則需使用更大的模型。
現在,你可以使用最先進的Llama模型,并繼續用你自己的數據來訓練它們,之后將它們優化到理想的規?!覀兓蚱渌魏稳硕疾粫佑|到你的數據。
我們需要控制自己的命運,而不是受制于某個閉源供應商。
許多組織不想依賴于他們無法自行運行和控制的模型。他們擔心閉源模型的提供者可能會更改模型、使用條款,甚至完全停止服務。他們也不希望被限制在一個對某個模型擁有獨占權的單一云平臺中。開源為眾多公司提供了一套兼容的工具鏈,使得在不同系統之間切換變得容易。
我們需要保護我們的數據。
許多組織處理敏感數據,需要保護這些數據不被通過云API發送到閉源模型中。其他組織則簡單地不信任閉源模型提供者的數據處理方式。開源通過讓你在任何想要的地方運行模型來解決這些問題,并且因為開發過程的透明性而被廣泛認為更安全。
我們需要一種高效且經濟的運行方式。
開發人員可以在自己的基礎設施上運行Llama 3.1 405B模型進行推理,其成本大約是使用GPT-4o等閉源模型的一半,適用于面向用戶的和離線推理任務。
我們押注了一個有望成為長期標準的生態系統。
很多人看到開源模型比閉源模型發展得更快,他們希望自己構建的系統架構能帶來最大的長期優勢。
(封面圖來自Meta X賬號)