国产精品一区二区网爆门_人妻互换精品无码专区麻豆_无码aⅴ精品一区二区三区少妇_五月婷婷在线视频免费观看

美國斯坦福大學(xué)AI團隊抄襲中國大模型 核心證據(jù)來自2300多年前的清華簡

美國斯坦福大學(xué)AI團隊抄襲中國大模型 核心證據(jù)來自2300多年前的清華簡

huangxinzhen 2025-03-05 新聞資訊 22 次瀏覽 0個評論

美國斯坦福大學(xué)一個AI團隊主導(dǎo)的開源大模型,被證實套殼抄襲了國內(nèi)清華系明星創(chuàng)業(yè)公司面壁智能的開源模型。目前,該團隊已公開道歉,并將該項目在相關(guān)平臺上的庫一并刪除。

這一事件昨天在國內(nèi)外社交媒體上引發(fā)熱議,#斯坦福抄襲中國大模型#和#斯坦福團隊道歉#,當(dāng)天下午分別沖上微博熱搜第2和第5位。

斯坦福大學(xué)AI團隊

抄襲中國大模型

5月29日,一個來自斯坦福大學(xué)的AI團隊在網(wǎng)上發(fā)表文章《Llama3-V: Matching GPT4-V with a 100x Smaller Model and 500 Dollars》,并開始廣而告之:成功訓(xùn)練出一個SOTA多模態(tài)模型Llama3-V,性能比GPT4-V、Gemini Ultra、Claude Opus更強,但模型要小100倍,且訓(xùn)練成本僅需500美元(折合人民幣約3622元)。后三個大模型,都是全球范圍知名的多模態(tài)“巨無霸”。

由于團隊成員擁有斯坦福大學(xué)(其中兩人是斯坦福大學(xué)本科生)、特斯拉、SpaceX、亞馬遜等亮眼背景,Llama3-V第一時間被推到了聚光燈下,登上開發(fā)者社區(qū)Hugging Face(抱抱臉)首頁,引發(fā)眾多開發(fā)者關(guān)注。

很快,有用戶在Hugging Face以及海外社交平臺X上提出質(zhì)疑:Llama3-V是否套殼MiniCPM-Llama3-V 2.5?后者為面壁智能5月20日推出的開源端側(cè)多模態(tài)模型。

輿論迅速發(fā)酵。經(jīng)過一些開發(fā)者的比較,兩者在模型結(jié)構(gòu)、代碼、配置文件等方面完全相同,只是進(jìn)行了一些重新格式化,并將部分變量重新命名。

面對質(zhì)疑,斯坦福大學(xué)團隊一開始選擇“辯解”:只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分詞器,自然語言處理NLP中的一個關(guān)鍵組件,負(fù)責(zé)將長篇文本內(nèi)容拆解成一個個獨立的單詞或子詞),并且宣稱在它發(fā)布前就已開始這項工作。

兩位斯坦福大學(xué)學(xué)生公開道歉

美國斯坦福大學(xué)AI團隊抄襲中國大模型 核心證據(jù)來自2300多年前的清華簡

6月2日晚,面壁智能團隊確認(rèn)抄襲事實。次日,面壁智能首席科學(xué)家劉知遠(yuǎn)在知乎上表示:“已經(jīng)比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼?!?/p>

他還表示:“人工智能的飛速發(fā)展離不開全球算法、數(shù)據(jù)與模型的開源共享。我們這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。而開源共享的基石是對開源協(xié)議的遵守,對其他貢獻(xiàn)者的信任,對前人成果的尊重和致敬?!?/p>

CEO李大海也在朋友圈發(fā)文:“對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境?!?/p>

昨天,Llama3-V團隊的其中兩位成員Aksh Garg(阿克什)和Siddharth Sharma(悉達(dá)多),也就是那兩位斯坦福大學(xué)本科生,已在社交平臺上向面壁智能團隊道歉:“我們向作者道歉,并對自己沒有努力驗證這項工作的原創(chuàng)性感到失望。我們對所發(fā)生的事情承擔(dān)全部責(zé)任,并已撤下Llama3-V,再次致歉。”

同時,Aksh Garg解釋Siddharth Sharma和自己主要是負(fù)責(zé)推廣,編寫代碼的是Mustafa Aljadery(穆斯塔法),而他目前已經(jīng)聯(lián)系不上。

戰(zhàn)國時期的清華簡成為核心證據(jù)

在朋友圈發(fā)文中,李大海給出確認(rèn)抄襲的一大理由是:經(jīng)過測試,面壁智能團隊發(fā)現(xiàn)Llama3-V不僅能識別清華簡的戰(zhàn)國古文字,而且在犯錯的地方也和MiniCPM-Llama3-V 2.5如出一轍。

公開資料顯示,清華簡是清華大學(xué)2008年7月收藏的一批戰(zhàn)國竹簡(年代約為公元前305±30年),屬于中國學(xué)術(shù)史上先秦文獻(xiàn)的重大發(fā)現(xiàn)。此后,清華大學(xué)成立專門研究團隊,先后在已故著名歷史學(xué)家、考古學(xué)家、古文字學(xué)家李學(xué)勤及黃德寬教授的帶領(lǐng)下開展簡文整理研究,以復(fù)原這批幸免于焚書坑儒與秦漢戰(zhàn)火的重要歷史“拼圖”。

這些年里,研究者們在一間不足20平方米的小屋里,用一面42英寸顯示屏讀簡,整理成果以一年一輯的速度出版公布,至今已出版13輯。諸子思想、歷史文化、天文歷法、律法術(shù)數(shù)、醫(yī)學(xué)方技……中國傳統(tǒng)文獻(xiàn)中的經(jīng)史子集均有發(fā)現(xiàn),竹簡的內(nèi)容逐漸清晰起來。

據(jù)李大海解釋,此次識別清華簡的訓(xùn)練數(shù)據(jù),采集和標(biāo)注均由清華NLP實驗室和面壁智能團隊完成?!昂臅r數(shù)月,從卷帙浩繁的清華簡中一個字一個字掃描下來,并逐一進(jìn)行數(shù)據(jù)標(biāo)注,融合進(jìn)模型中,且數(shù)據(jù)尚未對外公開?!?/p>

此外,Llama3-V、MiniCPM-Llama3-V 2.5兩個模型在高斯擾動驗證(一種用于驗證模型相似性的方法)后,在正確和錯誤表現(xiàn)方面都高度相似。

巧的是,6月2日,清華大學(xué)在官方微信公眾號上轉(zhuǎn)載了新華社《瞭望》新聞周刊刊發(fā)的特稿《破譯千年竹簡?求索文明密碼》,回憶這2500位先秦“客人”來到清華的故事。

文中提到,清華簡整理研究工作的難點之一,就是“認(rèn)字”?!扒迦A簡是戰(zhàn)國時期楚國人所寫,其中有些字沒有流傳下來,有的字形是首次出現(xiàn),即便將一些字辨識出來,其字義的理解也需要下大功夫去研究,因為這些竹簡文獻(xiàn)只有極少數(shù)可與傳世文獻(xiàn)對照參證。因此,‘考字釋詞’耗費巨大精力,把字詞探究清楚了,做到文通字順,才能真正了解文獻(xiàn)記載了什么內(nèi)容,進(jìn)而判斷其價值?!?/p>

轉(zhuǎn)載請注明來自微??萍脊倬W(wǎng),本文標(biāo)題:《美國斯坦福大學(xué)AI團隊抄襲中國大模型 核心證據(jù)來自2300多年前的清華簡》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!
Top
 內(nèi)蒙炭的最新價格  濟寧水工招聘網(wǎng)最新  西寧新冠的最新信息報道  錦州房產(chǎn)底價查詢網(wǎng)最新  韓劇最新熱播網(wǎng)劇  最新的新冠病毒的癥狀  暗黑最新版本  辰溪破產(chǎn)公告網(wǎng)官網(wǎng)最新  中文最新的漢字  無人深空最新版建筑刪除  最新的幼兒園文件圖片  韶關(guān)店鋪最新信息  南昌溫度地圖最新版  作業(yè)幫升級最新版本很卡  網(wǎng)紅茍富貴最新現(xiàn)狀  pass軟件最新版  autovoice最新版本  開封飯店出售最新信息  最新的建筑模版  三維繪圖軟件最新版下載  折疊桌的基本最新情況  無為今日菜價查詢網(wǎng)最新  最新版制作表格  午夜黃網(wǎng)最新  jar助手最新版  長江基建最新信息  機房接地網(wǎng)最新規(guī)范  紅姐網(wǎng)紅最新照片  最新的k寶  上海市招聘網(wǎng)最新招聘