近日
中國(guó)AI大模型創(chuàng)業(yè)公司
DeepSeek(深度求索)
正式發(fā)布DeepSeek-R1大模型
?
1月27日
蘋(píng)果App Store中國(guó)區(qū)免費(fèi)榜顯示
DeepSeek站上首位
同時(shí)其在美區(qū)蘋(píng)果App Store免費(fèi)榜
從26日的第六位飚升至第一位
超越ChatGPT、
Meta旗下社交媒體平臺(tái)Threads、
Google Gemini、Microsoft Copilot等
美國(guó)科技公司的生成式AI產(chǎn)品
?
DeepSeek表示
DeepSeek-R1在數(shù)學(xué)、代碼
自然語(yǔ)言推理等任務(wù)上
性能比肩OpenAI o1正式版
?
?
這一消息震動(dòng)了全球AI圈
迅速引起國(guó)際社會(huì)
廣泛關(guān)注與討論
?
“高性?xún)r(jià)比”引發(fā)AI圈震動(dòng)
?
DeepSeek-R1大模型發(fā)布之前
DeepSeek公司就已經(jīng)因?yàn)椤靶詢(xún)r(jià)比高”
而引發(fā)AI圈震動(dòng)
?
公開(kāi)資料顯示
DeepSeek
成立于2023年7月17日
是一家創(chuàng)新型科技公司
專(zhuān)注于開(kāi)發(fā)先進(jìn)的
大語(yǔ)言模型(LLM)和相關(guān)技術(shù)
?
2023年11月2日
DeeSeek推出
首個(gè)模型DeepSeek Coder
該模型免費(fèi)供商業(yè)使用
且完全開(kāi)源
?
2023年11月29日
DeepSeek LLM上線(xiàn)
其參數(shù)規(guī)模達(dá)到67B
性能接近GPT-4
同時(shí)還發(fā)布了
該模型聊天版本DeepSeek Chat
?
2024年5月
DeepSeek-V2發(fā)布
該模型在性能上
比肩GPT-4 Turbo
價(jià)格卻只有GPT-4的百分之一
?
2024年12月底
DeepSeek-V3發(fā)布
其性能與GPT-4o和Claude Sonnet 3.5等
頂尖模型相近
但訓(xùn)練成本極低
整個(gè)訓(xùn)練在2048塊
英偉達(dá)H800 GPU集群上完成
僅花費(fèi)約557.6萬(wàn)美元
相比之下
GPT-4o等模型至少要在
萬(wàn)個(gè)GPU量級(jí)的計(jì)算集群上訓(xùn)練
且使用的是性能更為優(yōu)越的H100 GPU
訓(xùn)練成本約1億美元
?
DeepSeek-V3發(fā)布后
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan
在社交媒體上表示
DeepSeek是2024年度
開(kāi)源大語(yǔ)言模型領(lǐng)域的“最大黑馬”
?
?
近期推出的DeepSeek-R1模型
在數(shù)學(xué)能力基準(zhǔn)測(cè)試中
達(dá)到了77.5%的準(zhǔn)確率
與OpenAI的o1不相上下
在編程領(lǐng)域的Codeforces評(píng)測(cè)中
達(dá)到了2441分的水平
高于96.3%的人類(lèi)參與者
?
開(kāi)源實(shí)現(xiàn)“彎道超車(chē)”
?
DeepSeek R1被討論的焦點(diǎn)
集中在兩方面
低訓(xùn)練與使用成本
以及開(kāi)源
?
區(qū)別于OpenAI
“海量數(shù)據(jù)投喂”的方式
DeepSeek利用算法
把數(shù)據(jù)進(jìn)行總結(jié)分類(lèi)
經(jīng)過(guò)選擇性處理之后
輸送給大模型
在提高訓(xùn)練效率的同時(shí)
也降低了DeepSeek的成本
?
?
在DeepSeek的高性?xún)r(jià)比模型發(fā)布后
OpenAI創(chuàng)始成員
Andrej Karpathy表示
未來(lái)或許不需要
超大規(guī)模的GPU集群了
?
除了極致性?xún)r(jià)比
讓DeepSeek大模型
脫穎而出的還有
其代碼和訓(xùn)練方法完全開(kāi)源
?
目前
DeepSeek-R1已經(jīng)一躍成為
開(kāi)源社區(qū)Hugging Face上
下載量最高的大模型
達(dá)10.9萬(wàn)次
這意味著全球的開(kāi)發(fā)人員
正在試圖了解這一模型
以輔助他們自己的AI開(kāi)發(fā)
?
DeepSeek創(chuàng)始人梁文鋒表示
開(kāi)源更像一個(gè)文化行為
而非商業(yè)行為
在顛覆性的技術(shù)面前
閉源形成的護(hù)城河是短暫的
即使OpenAI閉源
也無(wú)法阻止被別人趕超
?
加州大學(xué)伯克利分校AI政策研究員
Ritwik Gupta表示
DeepSeek-R1的出現(xiàn)證明了
“AI能力沒(méi)有技術(shù)護(hù)城河”
并稱(chēng)中國(guó)的系統(tǒng)工程師
人才庫(kù)比美國(guó)大得多
他們懂得如何充分利用計(jì)算資源
來(lái)更高效地訓(xùn)練和運(yùn)行模型
?
?
Meta首席人工智能科學(xué)家楊立昆
也在社交媒體表示
DeepSeek成功的最大收獲
不是來(lái)自中國(guó)競(jìng)爭(zhēng)對(duì)手的加劇威脅
而是保持人工智能模型開(kāi)源的價(jià)值
以便任何人都能受益
這就是開(kāi)放研究和開(kāi)源的力量
?
為AI領(lǐng)域帶來(lái)更多可能
?
DeepSeek本次“刷屏”
起因是1月20日
其正式發(fā)布推理大模型DeepSeek-R1
該模型在數(shù)學(xué)、編程和推理
等關(guān)鍵領(lǐng)域的表現(xiàn)
能與OpenAI的最強(qiáng)推理模型o1“掰手腕”
但其API調(diào)用成本卻低了90%-95%
?
DeepSeek公布的信息顯示
DeepSeek-R1在后訓(xùn)練階段
大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)
在僅有極少標(biāo)注數(shù)據(jù)的情況下
極大提升了模型推理能力
?
1月22日
美國(guó)《福布斯》雜志網(wǎng)站表示
DeepSeek R1模型
應(yīng)用強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù)
不僅已躋身世界最強(qiáng)大模型序列
而且完全開(kāi)源
可供世界上任何人
檢查、修改和進(jìn)一步研發(fā)
?
1月23日
英國(guó)《金融時(shí)報(bào)》網(wǎng)站
刊發(fā)評(píng)論文章稱(chēng)
DeepSeek的成功標(biāo)志著
中國(guó)在人工智能領(lǐng)域
日益強(qiáng)大的自主創(chuàng)新能力
?
?
美國(guó)計(jì)算機(jī)科學(xué)家
吳恩達(dá)表示
DeepSeek的進(jìn)展令人印象深刻
他們能夠
以非常經(jīng)濟(jì)的方式訓(xùn)練模型
最新發(fā)布的推理模型
表現(xiàn)非常出色
?
微軟CEO薩蒂亞·納德拉
公開(kāi)表示
DeepSeek切實(shí)有效地
開(kāi)發(fā)出了一款開(kāi)源模型
在推理計(jì)算方面表現(xiàn)出色
且超級(jí)計(jì)算效率極高
?
業(yè)內(nèi)人士表示
通過(guò)低成本、高性能
開(kāi)源共享的模式
DeepSeek正在為全球
科研人員和企業(yè)提供更多可能性
?
撰文:劉昊、王愷 編輯:李飛 排版:李汶鍵 統(tǒng)籌:李政葳
參考:第一財(cái)經(jīng)、每日經(jīng)濟(jì)新聞、澎湃新聞、上觀新聞、財(cái)聯(lián)社
光明網(wǎng)出品
更多內(nèi)容歡迎掃碼關(guān)注光明網(wǎng)數(shù)字化頻道