美國斯坦福大學(xué)一個AI團隊主導(dǎo)的開源大模型,被證實套殼抄襲了國內(nèi)清華系明星創(chuàng)業(yè)公司面壁智能的開源模型。目前,該團隊已公開道歉,并將該項目在相關(guān)平臺上的庫一并刪除。
這一事件昨天在國內(nèi)外社交媒體上引發(fā)熱議,#斯坦福抄襲中國大模型#和#斯坦福團隊道歉#,當(dāng)天下午分別沖上微博熱搜第2和第5位。
斯坦福大學(xué)AI團隊
抄襲中國大模型
5月29日,一個來自斯坦福大學(xué)的AI團隊在網(wǎng)上發(fā)表文章《Llama3-V: Matching GPT4-V with a 100x Smaller Model and 500 Dollars》,并開始廣而告之:成功訓(xùn)練出一個SOTA多模態(tài)模型Llama3-V,性能比GPT4-V、Gemini Ultra、Claude Opus更強,但模型要小100倍,且訓(xùn)練成本僅需500美元(折合人民幣約3622元)。后三個大模型,都是全球范圍知名的多模態(tài)“巨無霸”。
由于團隊成員擁有斯坦福大學(xué)(其中兩人是斯坦福大學(xué)本科生)、特斯拉、SpaceX、亞馬遜等亮眼背景,Llama3-V第一時間被推到了聚光燈下,登上開發(fā)者社區(qū)Hugging Face(抱抱臉)首頁,引發(fā)眾多開發(fā)者關(guān)注。
很快,有用戶在Hugging Face以及海外社交平臺X上提出質(zhì)疑:Llama3-V是否套殼MiniCPM-Llama3-V 2.5?后者為面壁智能5月20日推出的開源端側(cè)多模態(tài)模型。
輿論迅速發(fā)酵。經(jīng)過一些開發(fā)者的比較,兩者在模型結(jié)構(gòu)、代碼、配置文件等方面完全相同,只是進(jìn)行了一些重新格式化,并將部分變量重新命名。
面對質(zhì)疑,斯坦福大學(xué)團隊一開始選擇“辯解”:只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分詞器,自然語言處理NLP中的一個關(guān)鍵組件,負(fù)責(zé)將長篇文本內(nèi)容拆解成一個個獨立的單詞或子詞),并且宣稱在它發(fā)布前就已開始這項工作。
兩位斯坦福大學(xué)學(xué)生公開道歉
6月2日晚,面壁智能團隊確認(rèn)抄襲事實。次日,面壁智能首席科學(xué)家劉知遠(yuǎn)在知乎上表示:“已經(jīng)比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼?!?/p>
他還表示:“人工智能的飛速發(fā)展離不開全球算法、數(shù)據(jù)與模型的開源共享。我們這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。而開源共享的基石是對開源協(xié)議的遵守,對其他貢獻(xiàn)者的信任,對前人成果的尊重和致敬?!?/p>
CEO李大海也在朋友圈發(fā)文:“對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境?!?/p>
昨天,Llama3-V團隊的其中兩位成員Aksh Garg(阿克什)和Siddharth Sharma(悉達(dá)多),也就是那兩位斯坦福大學(xué)本科生,已在社交平臺上向面壁智能團隊道歉:“我們向作者道歉,并對自己沒有努力驗證這項工作的原創(chuàng)性感到失望。我們對所發(fā)生的事情承擔(dān)全部責(zé)任,并已撤下Llama3-V,再次致歉。”
同時,Aksh Garg解釋Siddharth Sharma和自己主要是負(fù)責(zé)推廣,編寫代碼的是Mustafa Aljadery(穆斯塔法),而他目前已經(jīng)聯(lián)系不上。
戰(zhàn)國時期的清華簡成為核心證據(jù)
在朋友圈發(fā)文中,李大海給出確認(rèn)抄襲的一大理由是:經(jīng)過測試,面壁智能團隊發(fā)現(xiàn)Llama3-V不僅能識別清華簡的戰(zhàn)國古文字,而且在犯錯的地方也和MiniCPM-Llama3-V 2.5如出一轍。
公開資料顯示,清華簡是清華大學(xué)2008年7月收藏的一批戰(zhàn)國竹簡(年代約為公元前305±30年),屬于中國學(xué)術(shù)史上先秦文獻(xiàn)的重大發(fā)現(xiàn)。此后,清華大學(xué)成立專門研究團隊,先后在已故著名歷史學(xué)家、考古學(xué)家、古文字學(xué)家李學(xué)勤及黃德寬教授的帶領(lǐng)下開展簡文整理研究,以復(fù)原這批幸免于焚書坑儒與秦漢戰(zhàn)火的重要歷史“拼圖”。
這些年里,研究者們在一間不足20平方米的小屋里,用一面42英寸顯示屏讀簡,整理成果以一年一輯的速度出版公布,至今已出版13輯。諸子思想、歷史文化、天文歷法、律法術(shù)數(shù)、醫(yī)學(xué)方技……中國傳統(tǒng)文獻(xiàn)中的經(jīng)史子集均有發(fā)現(xiàn),竹簡的內(nèi)容逐漸清晰起來。
據(jù)李大海解釋,此次識別清華簡的訓(xùn)練數(shù)據(jù),采集和標(biāo)注均由清華NLP實驗室和面壁智能團隊完成?!昂臅r數(shù)月,從卷帙浩繁的清華簡中一個字一個字掃描下來,并逐一進(jìn)行數(shù)據(jù)標(biāo)注,融合進(jìn)模型中,且數(shù)據(jù)尚未對外公開?!?/p>
此外,Llama3-V、MiniCPM-Llama3-V 2.5兩個模型在高斯擾動驗證(一種用于驗證模型相似性的方法)后,在正確和錯誤表現(xiàn)方面都高度相似。
巧的是,6月2日,清華大學(xué)在官方微信公眾號上轉(zhuǎn)載了新華社《瞭望》新聞周刊刊發(fā)的特稿《破譯千年竹簡?求索文明密碼》,回憶這2500位先秦“客人”來到清華的故事。
文中提到,清華簡整理研究工作的難點之一,就是“認(rèn)字”?!扒迦A簡是戰(zhàn)國時期楚國人所寫,其中有些字沒有流傳下來,有的字形是首次出現(xiàn),即便將一些字辨識出來,其字義的理解也需要下大功夫去研究,因為這些竹簡文獻(xiàn)只有極少數(shù)可與傳世文獻(xiàn)對照參證。因此,‘考字釋詞’耗費巨大精力,把字詞探究清楚了,做到文通字順,才能真正了解文獻(xiàn)記載了什么內(nèi)容,進(jìn)而判斷其價值?!?/p>