媒體與科技平臺所謂的第三次大戰里,OpenAI幾乎已經不戰而勝。
作者|田思奇
編輯|王博
谷歌是賊,是強盜。
2009年末的寒冬,在美國華盛頓一場論壇上,媒體大亨羅伯特·默多克直言:“有些人覺得他們可以竊取我們的新聞內容,還無需為新聞制作貢獻一分錢……他們幾乎盜用我們的全部新聞,這可不是合理使用。說得直白些,這就是偷?!?/span>
從新聞集團的發言來看,美國報業廣告收入腰斬應全部歸咎于谷歌的強取豪奪。默多克最親密的朋友,自2013年擔任新聞集團CEO至今的澳大利亞人羅伯特·湯姆森,把谷歌稱作“盜版平臺”(platform of pirate),其中pirate既可以表示盜版者,也有海盜的意思。直到2021年,谷歌才終于和新聞集團達成合作協議。
從互聯網時代開始的谷歌與一眾媒體的糾紛持續至今,引得多國政府親自下場立法,要求谷歌為本國媒體“掏錢”;十年前的移動互聯網時代中,自稱為“新聞搬運工”的今日頭條也曾與國內媒體對簿公堂。如今到了生成式AI時代,以OpenAI為代表的AI大模型與媒體的糾紛,讓內容創作者與技術催生的新渠道在21世紀的第三個十年,打響了第三次大戰。
去年年末,《紐約時報》向OpenAI發起一場聲勢浩大的版權訴訟,索賠金額高達數十億美元。作為全球付費新聞的王者,該媒體指控后者偷竊了《紐約時報》的內容訓練數據,甚至原封不動把本應付費才能閱讀的內容提供給用戶。
這場訴訟暫無結果,但OpenAI并沒有閑著。
不到半年,從與《金融時報》攜手,到與新聞集團的重量級聯姻,OpenAI已逐步鋪開自己的媒體聯盟。5月29日,OpenAI宣布將與世界報業和新聞出版協會(WAN-IFRA)合作,幫助各大新聞編輯室跟蹤其對人工智能的采用和實施,以便提高效率并創造高質量的內容。聲明中沒有涉及內容版權合作,但處處寫滿了這一點。
OpenAI成為平臺方和內容行業主導者的野心昭然若揭。
十年前怒斥谷歌的湯姆森,如今卻對OpenAI不吝溢美之詞:“我們很高興能找到薩姆·奧爾特曼這樣有原則的合作伙伴,以及他值得信賴、才華橫溢的團隊,他們了解記者和新聞業的商業和社會意義?!?/span>
與過往的版權爭議相比,這次媒體和OpenAI達成合作的速度、內容的使用形式、資訊攝取的隱憂,都在發生變化。
但行業局勢逐漸明朗:無論是否合法,OpenAI都一定會使用包括媒體在內的創作者提供的內容來訓練模型并提供回答,而后者最好盡早排隊和OpenAI談一個合作的好價錢。剛剛開始的第三次大戰,OpenAI幾乎已經不戰而勝。
唯一不變的是:天下熙熙、皆為利來,天下攘攘、皆為利往。
1.利益聯姻
依靠各自披露的不同細節,AI大模型企業與內容出版商的合作雛形已現。
5月下旬,OpenAI與新聞集團簽署為期五年,價值超過2.5億美元的合同。OpenAI可以訪問新聞集團旗下媒體過去數十年的歷史內容,包括《華爾街日報》《巴倫周刊》《泰晤士報》《每日電訊報》等英美澳主流媒體。
OpenAI與新聞集團合作,圖片來源:OpenAI
實際的呈現形式,可能就像英國《金融時報》在OpenAI合作協議中披露的那樣:ChatGPT用戶可以看到該媒體文章的摘要、引述和鏈接。尚不清楚該協議是否僅包括資訊內容,還是也包括觀點類內容。
OpenAI曾表示,該公司會持續與“精心挑選的高質量內容伙伴”合作,但沒有披露入選標準。值得一提的是,OpenAI尚未和默多克媒體帝國中的另一大集團——??怂剐侣労炇鸷献?。
同時,大多數合作媒體都表示,獲取OpenAI的相關技術用于自己的網站上。5月29日新晉達成合作的《大西洋月刊》表示,它正在創建一個名為“大西洋實驗室”的“實驗性網站”,該網站將試點OpenAI的技術,幫助這家媒體實現用AI推動產品功能開發。
在這場合作潮中,OpenAI的伙伴名單日益擴充,幾乎都是各國首屈一指的媒體集團。除上文提到的,還有去年7月就簽署合作的美聯社、法國《世界報》、西班牙《國家報》所屬的Prisa Media、德國《圖片報》所屬的Axel Springer,不一而足。
悉尼大學高級研究員羅布·尼科爾斯(Rob Nicholls)對「甲子光年」表示,單純復制媒體內容的AI模型,只是幫助用戶降低瀏覽付費內容的成本而已,這不是它最大的價值。OpenAI達成這些交易的主要目標是加強自身內容輸出的權威性,但這不意味著它的內容必須是最新的。
“(與媒體集團的)交易很可能主要是為了它們的歷史檔案。OpenAI認識到過去的新聞具有作為歷史記錄的權威性,盡管它們作為新聞本身的價值較低?!蹦峥茽査拐f。
然而交易的另一方透露了些許無奈。
“與所有人達成協議符合我的利益,”《世界報》首席執行官路易·達孚(Louis Dreyfus)在接受采訪時表示,“如果沒有協議,他們還是會或多或少地使用我們的內容,而我們不會得到任何好處?!?/span>
這或許證明,默多克的話也有一定道理。
但OpenAI可能也覺得自己是被迫使用版權內容的。它在2023年底提交給英國上議院的文件中表示:“把訓練數據限制在一個多世紀前創作的公版書籍和繪畫中,不能訓練出符合當今公民需求的人工智能系統”。
眼前的局面很符合英語里說的“marriage of convenience”——便利的婚姻,出于利益而非你情我愿的結合。
墨爾本皇家理工學院媒體與傳播學系高級講師T·J·湯普森( T J Thomson)對「甲子光年」表示,如果平臺方受益于人類的勞動、創造力或他人的表達,那么補償他們的勞動和表達是公平的。但當科技巨頭與媒體公司達成協議時,通常只有那些最大的、利潤最高的媒體公司才能受益。談判桌上沒有席位留給中小媒體機構,隨著大公司的壯大,它們被遠遠甩在了后面。
據The Information報道,與注入新聞集團的巨資相比,OpenAI給一些新聞機構只開出100萬美元的報價。
即便如此,許多內容出版商還是排隊從OpenAI或類似的公司那里拿錢。
沒有拿到合同的大媒體還在釋放誠意,比如《華盛頓郵報》首席執行官威廉·劉易斯 (William Lewis) 忙著隔空喊話:“我們正在尋求重要的人工智能合作伙伴關系”。但他又不忘強調:“無論如何,我們必須為迄今為止被拿走的一切獲得報酬?!?/span>
值得一提的是,《華盛頓郵報》的老板明明就是以個人身份收購這家媒體的亞馬遜創始人貝佐斯——當然也有人嘲諷說,亞馬遜根本沒有走進這一輪AI浪潮。
另一方面,總有人不想和他們心中貪婪的野獸做交易。
2.金錢、人性和尊重
在圣誕節和新年假期的夾縫中,曼哈頓聯邦地區法院于2023年12月27日受理了《紐約時報》對微軟和OpenAI提起的訴訟。
在起訴書中,《紐約時報》指責OpenAI在訓練其生成式AI工具(如GPT)時,特別重視《紐約時報》的內容。如下圖所示,ChatGPT和微軟的Copilot等AI產品經常按照用戶的提示原封不動地呈現《紐約時報》文章的第一大段,第二大段等等。并且在多數情況下它不會給原鏈接,從而剝奪了內容出版商的廣告收入和讀者流量。
圖片來源:《紐約時報》的起訴書
美國Alden Global Capital旗下八家知名地方報紙也出于同樣的原因向OpenAI發起訴訟。它和《紐約時報》一樣沒有說明具體的索賠金額。
而微軟在回應中,自認為是推動社會進步的技術掌控者。它引用了1982年時任美國電影協會主席的杰克·瓦倫蒂 (Jack Valenti) 的言論,當時他警告國會說,磁帶錄像機(VCR)將對電影業造成巨大沖擊,因為“錄像機對美國電影制片人和美國公眾的風險,和殺死多名獨居女性的波士頓連環殺手對獨居女性造成的風險”一樣多。
因此,微軟認為《紐約時報》正在利用其影響力攔截大模型這一重大技術進步。版權法不應成為阻礙AI模型發展的絆腳石,正如它不會阻攔錄像機、復印機、個人電腦或互聯網的發展一樣。
與此同時,OpenAI并不滿足于獲取媒體內容?!都~約時報》報道指出,OpenAI曾使用超過一百萬小時的YouTube視頻轉錄來訓練GPT-4,隨即引發YouTube及母公司谷歌的強烈反彈。
一些藝術家也表示,自己的圖像或作品被用作訓練數據,女演員斯嘉麗·約翰遜則指責OpenAI根據她自己的聲音創建了AI語音助手,盡管她曾拒絕為該公司的新產品提供聲音。
康奈爾大學數字與信息法教授詹姆斯·格里梅爾曼(James Grimmelmann)對「甲子光年」指出,刻意模仿某個人的聲音或風格可能侵犯美國法律的公開權(the right of publicity),即有關個人形象用于商業用途的權利。此外,產品的營銷話術也很關鍵。OpenAI與斯嘉麗·約翰遜的糾紛會很麻煩,因為該公司已經公開表示語音助手功能受到了這位女演員用聲音出演的電影《她》的啟發。
當然,格里梅爾曼還提到,對于一些藝術家來說,這不僅是經濟糾紛,還關乎他們的人性與尊重?!八麄儾粌H僅想要補償;他們還希望得到點頭的權利和信任?!?并且有些創作者純粹是在倫理道德上就反對生成式人工智能。而《紐約時報》的訴求很明確,它認為自己正在遭遇不正當競爭,希望通過談判達成協議并獲得補償。
尼科爾斯指出,除了文本之外,大型語言模型非常擅長基于較短(不到一小時)的語音材料的聲音訓練并模仿。提供聲音的演員面臨的問題之一可能是,制作公司可能在早期的合同里寫入了允許其使用聲音訓練的條款。所以一些糾紛可能發生在創作者和之前的合同雇主之間,而非他們直接控訴OpenAI。
AI大模型對版權的使用也的確存在法律上的模糊地帶。OpenAI可以提出的辯護理由是美國1976年版權法第107條規定的“合理使用”(fair use)。中國的著作權法中也有類似的概念,植根于有關版權保護的《伯爾尼公約》。但歐盟和澳大利亞等地沒有“合理使用”的規定。
格里梅爾曼表示,根據美國法律,谷歌與OpenAI所稱的“合理使用”并沒有異議。然而,合理使用的先例不涉及生成式人工智能,而且AI模型還會利用互聯網素材生成新的表達,這會對他們借用“合理使用”的概念造成不利。
如果OpenAI足夠了解十年前國內發生的版權大戰,它會不會也考慮把自己定位為中立的新聞搬運工呢?
3.“竊書不算偷”
2012年8月,今日頭條App上線,其以算法推薦內容作為主要特色。時代證明,張一鳴踩中了大家想要的。
不到兩年時間,今日頭條累計下載用戶過億,月活用戶4000萬。2014年6月初,當時還以今日頭條指代整個公司品牌的字節跳動高調宣布完成C輪融資,金額達1億美元,市場估值超過5億美元。
喜訊從天而降之時,那些被利用的角色拍桌而起。
幾乎和融資消息公布同步,擁有《廣州日報》信息網絡傳播權的廣州交互式信息網絡有限公司以侵犯著作權為由將字節跳動告上法庭,理由是今日頭條客戶端會抓取包括《廣州日報》在內的其他媒體的原創新聞,然后進行整理、歸類、排行,最終推出“二次加工”新聞。北京海淀法院在2014年6月4日公開審理此案。
南方的媒體也得到了北方同行的大力應援?!缎戮﹫蟆吩?014年6月5日發表社論文章控訴今日頭條侵權,諷刺對方利用了中國“竊書不算偷”的思想,誤導中國的版權保護之路。
當年6月13日在北京舉行的網絡媒體作品使用版權問題座談會上,《廣州日報》副總編輯謝奕感觸良多:“對于個別移動客戶端未經授權便轉載信息的做法,我們采取了積極談判的方式,然而由于彼此對于版權的理解不同,我們只好對某些不能達成一致意見的移動客戶端采取了司法手段?!?/span>
這場座談會沒有流出今日頭條方面的發言。但座談會主辦方代表,中國版權協會常務副理事長王國慶、副理事長鄒建華表現出促和的態度。他們指出,傳統媒體在法律框架下充分維權,讓傳統媒體與新媒體合作共贏,才是行業的共同目標。
即便沒有座談會上的鼓勵,據刺猬公社報道,今日頭條僅在2014年6月6日至7日,就收到了20多家媒體的合作申請,身后還有一百多家傳統媒體機構主動申請加入今日頭條媒體平臺。
開庭僅兩周后,今日頭條與《廣州日報》在2014年6月18日簽署合作協議,后者已正式申請撤訴。
截至2017年11月與《華西都市報》達成合作時,今日頭條旗下產品總日活用戶超過1億,也與約1萬家媒體達成版權合作。今日頭條每年在內容建設方面投入達15億元。
而把報紙上最重要的位置留給控訴今日頭條四年后,《新京報》在2018年10月推出了自己的App。時任新京報社長的宋甘澍表示,這是一個讓傳統媒體“窘迫”的時代,App“內容是新京報的,技術是今日頭條的”。
一貫強調今日頭條不是一家媒體公司,而是一家技術公司的張一鳴,也作為嘉賓出現在《新京報》這場發布會的現場。
但今日頭條仍然在之后的許多年里輸掉許多版權官司。例如2015年,《現代快報》因今日頭條未經授權轉載現代快報4篇稿件起訴后者,最終字節跳動在2018年被判賠償經濟損失10萬元及相關合理費用1.01萬元;
近期多篇稿件刷屏的自媒體博主何加鹽在2021年曾因同樣的理由起訴今日頭條,獲賠3200元。他指出自己獲勝的核心理由是:今日頭條并不是一個簡單的“信息存儲空間”。他的文章由字節跳動經過“篩選”后再“分發”到今日頭條平臺的不同板塊,意味著它應該在此過程中對分發內容是否侵權承擔更高的注意義務。第二,今日頭條把內容分發到不同板塊,是能從中獲得相關收益的。
然而,和內容創作者消耗的時間精力與成本相比,獲賠金額似乎不值一提。
什么才是合理的成本?
4.和天氣預報差不多價錢
隨著媒體陷入經濟困境,他們的談判地位愈發卑微。
據The Verge在2015年援引谷歌前員工表示:“如果谷歌說,下個禮拜二開始你的網站主頁必須改成亮粉色,才能在谷歌搜索結果里顯示出來,每個人都會這樣做,因為這是活下來的必要條件?!?/span>
但歐洲經濟政策研究中心(CEPR)2024年1月的一篇文章估計,谷歌這樣的技術平臺每年應向內容平臺支付119億美元至139億美元。文章作者研究認為,谷歌和Facebook的廣告收入飆升,而傳統媒體的廣告收入卻在下降。越來越多用戶通過社交媒體獲取新聞,這是谷歌和Facebook都承認的事實;同時報紙應該感謝大型科技平臺為自己的內容帶來流量。
因此,基于“經濟互補性”理論。大型科技平臺和新聞內容創作者提供了“互補服務”,意味著它們合作創造的經濟價值比各自單獨運營的收益要大。計算經濟價值總量后,研究者認為大部分收益應歸給科技平臺,新聞出版商只占一小部分。即便如此,對比實際的情況,像谷歌這樣的科技公司每年還是應該多付媒體幾十億美元。
面對平臺方的強勢,政府也下場了。
2019年,歐盟通過的《數字化單一市場版權指令》第11條賦予了新聞出版機構“與著作權相關的鄰接權”,他們有權向互聯網平臺展示的新聞出版內容(包括鏈接、標題和具體內容等)索取費用。法國多家媒體隨即向政府投訴谷歌。2021年,法國競爭管理局向谷歌開出5億歐元的罰單;次年谷歌放棄上訴,與媒體達成和解協議。
谷歌在公司聲明中表示:“我們對(法國2021年的)這一決定非常失望——我們在整個過程中都是本著善意行事的?!?/span>
雖然早前也和法國媒體有過協議,但法國競爭管理局負責人伊莎貝爾·德席爾瓦 (Isabelle de Silva) 當時表示,谷歌給的版權費是“微不足道”的,這家科技巨頭為新聞內容支付的費用和給天氣預報資訊的差不多水平。
在人工智能帶來的新業態下,谷歌在5月表示會向用戶提供生成式AI驅動的搜索引擎。
格里梅爾曼對「甲子光年」表示,谷歌也想趕上OpenAI的步伐,開發自己的模型。但由于之前犯過幾個非常尷尬的錯誤,人們對它面向消費者能否提供好的產品有質疑,OpenAI把大模型轉化為消費者產品這方面要做得更好。
于是急火攻心的谷歌也抓取了新聞機構的內容——并且又被法國發現了。2024年3月,法國競爭管理局又向谷歌罰款2.5億歐元,因為它未經媒體同意就擅自抓取內容訓練自己的聊天機器人,違反了歐盟知識產權相關規定。
“隨著時間的推移,人們越來越清楚,沒有什么特別神奇的秘密;任何在足夠多的數據上訓練類似架構的人都可以從中獲得相當好的產品模式,”格里梅爾曼說道。
5.新的工具、新的戰場
OpenAI從未否認高質量內容對訓練大模型的必要性。
為了更好地協調與內容創作者的關系,OpenAI在5月表示正在開發“媒體管理器”,計劃于2025年投入使用。它將允許創作者和內容所有者向OpenAI識別他們的作品,并選擇將自己的作品納入數據訓練或排除在外。
在那之前,湯普森對「甲子光年」表示,創作者可以用“數據投毒(Data Poisoning)”的方式,即內容可以在不被察覺的情況下做出改動的方式反擊人工智能的盜竊,迷惑那些想要偷數據的AI模型。比如Nightshade之類的AI工具已經可以通過改變像素在圖片上做到這一點。
與其被媒體“偷襲”,不如握手言和。
但最難解決的還是利益分配問題。格里梅爾曼指出,支付補償的困難在于,一個AI模型基于這么多不同的內容作品訓練,很難弄清楚誰有權獲得多少份額。
對于用戶來說,格里梅爾曼認為,大模型提供的新聞摘要可能會取代大多數原創新聞,而大模型自己經過訓練并總結的新聞資訊也可能出現錯誤,所以會帶來很大風險。在這些情況下,最有可能被追究責任的就是作為平臺的OpenAI,因為它直接向用戶傳遞了有害信息。
湯普森指出,長遠來看,在媒體與科技公司加強內容共享后,仍需要關注具體共享的內容類型,尤其是新聞網站上的資訊內容和觀點內容可能南轅北轍,但如果這兩者都被用于訓練AI模型,內容輸出的質量,準確性和有效性都會受到影響,“它反映了誰的價值觀和意識形態,這會如何在人工智能的輸出中無形地體現出來?”
因此湯普森認為,一種理想的方式是保持“人的在場”,也就是在輸出前有人監督AI模型從輸入到輸出的準確性。
另一方面,對于把OpenAI的技術應用于產品的媒體來說,尼科爾斯認為,內容出版商要為所有自己發布的內容負責,沒有理由說“是我的人工智能讓我這么寫的”。這種責任制會讓媒體更謹慎地使用AI,“幻覺”不是出版商可以采用的辯護理由。
“拋開點擊率不談,目前人工智能制作的新聞質量與記者制作的新聞質量沒有可比性。雖然生成式人工智能可以幫助增強記者的工作,例如幫助他們整理大量內容,但如果我們開始將其視為替代品,我們會損失慘重,”尼科爾斯說。
傳播學鼻祖麥克盧漢曾提出:“每一種舊媒介都是另一種新媒介的內容”,新媒介的出現不會完全取代舊媒介,而是將舊媒介作為其內容的一部分。 所以也可以認為,無論是谷歌、今日頭條,還是如今的OpenAI,他們都不可避免地成為了媒介的媒介。
OpenAI首席運營官布拉德·萊特卡普 (Brad Lightcap) 表示,對于公司來說,“在這些產品成型的過程中展現高質量的新聞報道”非常重要,并且“與任何變革性技術一樣,它既有可能取得重大進步,也有可能面臨重大挑戰,但絕不可能讓時光倒流?!?/span>
這不禁讓人想到一個問題:一百年后,人們會記得OpenAI還是《紐約時報》?
*參考資料:
《網絡媒體作品使用版權問題座談會在京舉行》,《中國新聞出版報》
《“今日頭條”,是誰的“頭條”》,《新京報》
《Paying for news: What Google and Meta owe publishers》,CEPR
《OpenAI and Microsoft respond to the Times—while Musk also sues OpenAI》,Columbia Journalism Review
《The AP and Google reach a licensing renewal agreement — here’s what it might mean for their relationship》,NiemanLab
(封面圖來源:攝圖網)