《科創(chuàng)板日報》2月5日訊(記者 黃心怡) 隨著DeepSeek熱度飆升,其“朋友圈”也在快速擴容。
今日,京東云宣布正式上線DeepSeek-R1和DeepSeek-V3模型,支持公有云在線部署、專混私有化實例部署兩種模式。前幾日,阿里云、百度智能云、華為云、騰訊云、火山引擎、天翼云已接入了DeepSeek模型。海外的亞馬遜AWS、微軟Azure等云巨頭同樣官宣支持。
多家國產(chǎn)芯片廠商亦紛紛響應(yīng)。華為今天宣布DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro上線昇騰社區(qū);DeepSeek-V3滿血版在國產(chǎn)沐曦GPU首發(fā)體驗上線。天數(shù)智芯、摩爾線程、海光信息也在2月4日宣布支持DeepSeek模型。而英偉達、AMD、英特爾等海外芯片巨頭在更早已完成支持。
此外,無問芯穹、硅基流動等AI基礎(chǔ)設(shè)施廠商,以及青云科技、PPIO派歐云、云軸科技等獨立云廠商,已宣布適配及上架模型服務(wù)。
從底層芯片到云服務(wù)商,隨著DeepSeek朋友圈的擴大,有望進一步推動大模型的低成本化,擴大AI的垂直應(yīng)用場景。
目前,華為小藝助手App的智能體廣場已上線DeepSeek-R1的Beta版。科創(chuàng)板上市公司光云科技、當(dāng)虹軟件等也接入DeepSeek系列模型開展應(yīng)用探索。
▍六大云巨頭上線DeepSeek系列模型 推動開源生態(tài)發(fā)展
DeepSeek旗下大模型“爆火”后,國內(nèi)主流云平臺均陸續(xù)上線了相關(guān)模型。
今日,京東云言犀AI開發(fā)計算平臺宣布支持DeepSeek-V3、DeepSeek-R1以及所有蒸餾小參數(shù)模型(DeepSeek-R1-Distill)的一鍵部署。
春節(jié)期間,華為云和硅基流動聯(lián)合首發(fā)并上線了基于華為云昇騰云服務(wù)的DeepSeek-R1/V3推理服務(wù)。阿里、騰訊、百度、火山引擎等云廠商也上線了DeepSeek系列模型。其中,百度智能云還提出了限時免費的服務(wù)方案。至此,國內(nèi)六大云巨頭都已正式支持DeepSeek。
中國云平臺集中上線DeepSeek,其背后是云廠商們希望在DeepSeek的火爆浪潮中,吸引更多客戶使用其算力和服務(wù)。
AI產(chǎn)品榜的數(shù)據(jù)顯示,DeepSeek僅上線18天時日活就突破1500萬,而ChatGPT過1500萬花了244天,增速是ChatGPT的13倍。上線20天后,DeepSeek日活已達2215萬,實ChatGTP日活用戶的41.6%,超過豆包的日活用戶1695萬。
云基礎(chǔ)設(shè)施廠商有望受益于DeepSeek帶來的新敘事,而DeepSeek的成功,也將提振整個開源社區(qū)的共建氛圍,使得更多開源模型能夠“站在巨人肩膀上”快速進步。
相比OpenAI的閉源路線,DeepSeek選擇了開源的開放路線,這類似于PC時代的Windows和Linux之爭。面對DeepSeek的爆火,OpenAI首席執(zhí)行官薩姆·阿爾特曼此前承認(rèn)稱,OpenAI在開源策略上“站在了歷史的錯誤一邊”,并表示需要考慮制定不同的開源策略。
華泰證券認(rèn)為,開源模型的優(yōu)勢體現(xiàn)在社區(qū)共建和技術(shù)共享。理論上所有的小參數(shù)模型均能夠直接利用DeepSeek-R1蒸餾出的標(biāo)簽數(shù)據(jù),來增強推理性能。2025年或是開源模型快速進步的一年,國產(chǎn)大模型進展值得關(guān)注。
▍主流國產(chǎn)芯片兼容支持 挑戰(zhàn)和機遇并存
在芯片領(lǐng)域,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上線昇騰社區(qū),支持一鍵獲取DeepSeek系列模型,支持昇騰硬件平臺上開箱即用,同時提供精度性能微調(diào),推理服務(wù)化快速部署等能力,
摩爾線程也發(fā)文稱,已實現(xiàn)對DeepSeek蒸餾模型推理服務(wù)的部署。為推進國產(chǎn)AI生態(tài)發(fā)展,摩爾線程即將開放自主設(shè)計的夸娥(KUAE)GPU智算集群,全面支持DeepSeek-V3、R1模型及新一代蒸餾模型的分布式部署。
天數(shù)智芯與Gitee AI成功完成了與DeepSeek-R1的適配工作,并且已正式上線多款大模型服務(wù),其中包括DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B等。天數(shù)智芯還稱,正在與并行科技、算力互聯(lián)等多家伙伴,開展DeepSeek包括R1在內(nèi)的多款模型的適配與上線,后續(xù)即將上線的并行科技平臺,不僅面向普通用戶和開發(fā)者,更是主要面向企業(yè)用戶的AI服務(wù)平臺。
Gitee AI聯(lián)合沐曦于2月2日首發(fā)全套DeepSeek-R1千問蒸餾模型,實現(xiàn)了從芯片到平臺,從算力到模型,全國產(chǎn)研發(fā)、中國制造。2月5日,Gitee AI進一步表示,DeepSeek-V3滿血版在國產(chǎn)沐曦GPU首發(fā)體驗上線。
而海光信息也完成了DeepSeek V3和R1模型與海光DCU(深度計算單元)的適配,并正式上線。
此外,國家超算互聯(lián)網(wǎng)平臺已正式上線DeepSeek-R1模型的1.5B、7B、8B、14B版本,并將于近期陸續(xù)更新32B、70B等版本。除R1模型外,國家超算互聯(lián)網(wǎng)平臺還上線了DeepSeek-V3、DeepSeek-v2.5系列、DeepSeek-coder系列、DeepSeek-math系列(7b)和DeepSeek-v2系列(Lite)等模型。
“DeepSeek大模型與國產(chǎn)芯片的適配基本不花時間,而性能優(yōu)化估計一周完成。”有算力領(lǐng)域人士介紹。
“當(dāng)下,主流國產(chǎn)芯片已基本實現(xiàn)對DeepSeek 蒸餾版小模型的兼容支持。這意味著,只要此前能夠運行Llama、Qwen這類常見模型,如今便可直接無修改地運行DeepSeek蒸餾版小模型。”魔形智能聯(lián)合創(chuàng)始人徐凌杰對記者表示,“可以預(yù)見,隨著基于 DeepSeek的應(yīng)用如雨后春筍般爆發(fā),越來越多芯片廠商的入局,新一輪市場競爭與價格調(diào)整或許即將拉開帷幕?!?/p>
不過,徐凌杰也指出,滿血版的V3和R1擁有6710億參數(shù),這使得它們對硬件的要求大幅提升。同時,由于采用了此前未被廣泛應(yīng)用的MoE專家并行(EP)策略,其運行需要額外的推理框架支持。
“目前,僅有少數(shù)幾家國產(chǎn)芯片成功上線了滿血版。要想完全解鎖DeepSeek高性能、低成本的推理優(yōu)勢,按照官方推薦配置,需在推理的解碼部分部署320個GPU,以實現(xiàn)完全的專家并行。這種‘超節(jié)點’式的部署方式,對所有國產(chǎn)芯片廠商而言,既是全新的挑戰(zhàn),也是難得的機遇。”徐凌杰提到。
▍擴大AI的應(yīng)用場景
談及未來DeepSeek對國內(nèi)AI產(chǎn)業(yè)鏈的利好影響,沐曦聯(lián)合創(chuàng)始人楊建表示,最大的影響是強化學(xué)習(xí)的蒸餾流程開源,讓大模型在垂直領(lǐng)域的后訓(xùn)練和推理成本急劇下降,同時在垂直領(lǐng)域的可用性急劇上升,同時催生大模型在各行各業(yè)的認(rèn)知,拉升私有化垂直模型部署的愿望。R1蒸餾32B模型的能力逼近OpenAI的O1,使得企業(yè)可以私有化低成本部署而不用擔(dān)心泄密問題,部署意愿極大提高。
TrendForce集邦咨詢研究指出,DeepSeek模型雖然降低了AI訓(xùn)練成本,但AI模型的低成本化可望擴大應(yīng)用場景,進而增加全球數(shù)據(jù)中心建置量。光收發(fā)模塊作為數(shù)據(jù)中心互連的關(guān)鍵組件,將受惠于高速數(shù)據(jù)傳輸?shù)男枨蟆N磥鞟I服務(wù)器之間的數(shù)據(jù)傳輸,都需要大量的高速光收發(fā)模塊,這些模塊負責(zé)將電信號轉(zhuǎn)換為光信號并通過光纖傳輸,再將接收到的光信號轉(zhuǎn)換回電信號。TrendForce數(shù)據(jù)顯示,2023年400Gbps以上的光收發(fā)模塊全球出貨量為640萬個,2024年約2040萬個,預(yù)估至2025年將超過3190萬個,年增長率達56.5%。
“實際上從22-24年對大模型應(yīng)用的風(fēng)險投資在減少,今年可能會逆轉(zhuǎn)。因為后訓(xùn)練成本急劇下降?!睏罱▽Α犊苿?chuàng)板日報》表示。
隨著DeepSeek帶動模型成本的下降,有望推動AI應(yīng)用的爆發(fā)。科創(chuàng)板上市公司光云科技、當(dāng)虹科技等都在探索DeepSeek模型的落地應(yīng)用。其中,快麥小智是光云科技旗下智能客服機器人,其基于大模型的智能體產(chǎn)品綾智的多項業(yè)務(wù)場景和功能支持DeepSeek各個版本。光云科技方面稱,將持續(xù)推動旗下AI產(chǎn)品與包括DeepSeek在內(nèi)的大模型深度適配。
當(dāng)虹科技BlackEye多模態(tài)視聽大模型正式融合DeepSeek-R1和DeepSeek Janus Pro,并完成視聽傳媒、工業(yè)與衛(wèi)星、車載智能座艙等多行業(yè)垂類場景的數(shù)據(jù)調(diào)優(yōu)訓(xùn)練。
DeepSeek給AI應(yīng)用帶來更大的想象力,今日金山辦公一度觸及20cm漲停。不過《科創(chuàng)板日報》了解到,金山辦公尚未與DeepSeek正式合作,有接近金山辦公的人士對《科創(chuàng)板日報》記者表示,金山辦公正在與Deepseek進行對接測試,未來是否合作要看后續(xù)發(fā)展。
在研究層面,楊建預(yù)計,各大研究機構(gòu)都會研究新技術(shù)來做預(yù)訓(xùn)練和后訓(xùn)練,加快新算法落地?!皩嶋H上DeepSeek使用的很多方法是高校研究成果的優(yōu)秀集成,每年出現(xiàn)那么多新方法,究竟哪些組合才能產(chǎn)生最大產(chǎn)出和價值,可能有很多組合沒有被發(fā)現(xiàn),今年肯定有更多的算法創(chuàng)新爆發(fā)。DeepSeek只是一個星星之火的燃點?!?/p>
在人才方面,楊建判斷,大模型應(yīng)用人才培養(yǎng)會更受重視。“2022-2024年聚集在少數(shù)企業(yè),整體業(yè)界水平在萎縮。同時,2022-2024年高校并沒有培養(yǎng)大模型應(yīng)用人才。25年春節(jié)反應(yīng)比較快的高校已經(jīng)開始計劃春季大模型應(yīng)用人才培養(yǎng),到秋天會覆蓋數(shù)百所高校會跟隨,今年全國有望培養(yǎng)大模型應(yīng)用開發(fā)人才30-50萬。