
無(wú)問(wèn)芯穹在行業(yè)內(nèi)首次實(shí)現(xiàn)了多種大模型算法在多種芯片上的高效協(xié)同部署、運(yùn)行,以獨(dú)家技術(shù)優(yōu)勢(shì)解決異構(gòu)算力整合問(wèn)題,降低行業(yè)對(duì)單一國(guó)際芯片品牌的依賴,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈韌性和競(jìng)爭(zhēng)力。
文|錢麗娜ID | BMR2004
在AI算力冰冷的賽道中,一群來(lái)自清華大學(xué)、上海交通大學(xué)、中國(guó)科學(xué)院的年輕學(xué)者用“無(wú)問(wèn)芯穹”這四個(gè)充滿詩(shī)情畫(huà)意的字,打開(kāi)了面向無(wú)垠穹隆的空間。“無(wú)問(wèn)”二字源自清華的校歌,歌詞中寫(xiě)道“立德立言,無(wú)問(wèn)西東”,AI時(shí)代即起,英雄也將不問(wèn)出處。
2025年年初,的問(wèn)世,人們驚覺(jué)大模型訓(xùn)練還能如此壓榨算力。在算力決定生產(chǎn)力和競(jìng)爭(zhēng)力的時(shí)刻,算力優(yōu)化這條賽道的機(jī)會(huì)陡然出現(xiàn)。
01
找準(zhǔn)生態(tài)壁壘中的機(jī)會(huì)
依托“多元異構(gòu)、軟硬協(xié)同”的核心技術(shù)優(yōu)勢(shì),無(wú)問(wèn)芯穹打造了連接“M種場(chǎng)景與模型”和“N種硬件與芯片”的“M×N”AI基礎(chǔ)設(shè)施新范式。
無(wú)問(wèn)芯穹的目標(biāo)是成為大模型時(shí)代首選的算力運(yùn)營(yíng)商。這樣的定位來(lái)自于他們對(duì)市場(chǎng)的洞察。
人工智能發(fā)展由算力、算法和數(shù)據(jù)三要素驅(qū)動(dòng)。如果把人工智能比作一支火箭,數(shù)據(jù)是燃料,算法是導(dǎo)航系統(tǒng),算力就是引擎。人工智能算法要在人工智能芯片上完成部署才能運(yùn)行,而芯片市場(chǎng)中國(guó)際尖端芯片市占率居高不下,雖然許多場(chǎng)景里國(guó)產(chǎn)芯片也能完成任務(wù),但囿于國(guó)際主流芯片的基礎(chǔ)軟件生態(tài)壁壘,通常難以被優(yōu)先使用。此外,國(guó)產(chǎn)算力間生態(tài)互不相通,多元芯片間難協(xié)同提供算力。同時(shí),算力資源呈現(xiàn)持有方分散化、地域分布不均衡的特點(diǎn),跨系統(tǒng)調(diào)度與利用效率不高,高性價(jià)比、高附加值算力仍存在巨大的供給缺口。
為此,無(wú)問(wèn)芯穹構(gòu)建了一朵“異構(gòu)云”,在行業(yè)內(nèi)首次實(shí)現(xiàn)了多種大模型算法在多種芯片上的高效協(xié)同部署和運(yùn)行,以獨(dú)家技術(shù)優(yōu)勢(shì)解決異構(gòu)算力整合問(wèn)題,降低行業(yè)對(duì)單一國(guó)際芯片品牌的依賴,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈韌性和競(jìng)爭(zhēng)力。
無(wú)問(wèn)芯穹首創(chuàng)了跨機(jī)房訓(xùn)練技術(shù),提升零散算力資源可用性,實(shí)現(xiàn)高價(jià)值數(shù)據(jù)資源本地處理,讓算力與數(shù)據(jù)流通更高效。打通異屬算力資源的高效調(diào)度,解決算力需求動(dòng)態(tài)預(yù)測(cè)與調(diào)度問(wèn)題,實(shí)現(xiàn)跨域算力資源共享和配置優(yōu)化,助力算力資源與下游產(chǎn)業(yè)協(xié)同發(fā)展。
依托“多元異構(gòu)、軟硬協(xié)同”的核心技術(shù)優(yōu)勢(shì),無(wú)問(wèn)芯穹打造了連接“M種場(chǎng)景與模型”和“N種硬件與芯片”的“M×N”AI基礎(chǔ)設(shè)施新范式,實(shí)現(xiàn)多種大模型算法在多元芯片上的高效協(xié)同部署;在云側(cè),無(wú)問(wèn)芯穹基于多元芯片算力底座構(gòu)建了Infini-AI異構(gòu)云平臺(tái),向大模型開(kāi)發(fā)者提供極致性價(jià)比的高性能算力和原生工具鏈,為大模型從開(kāi)發(fā)到部署的全生命流程降本增效;在端側(cè),無(wú)問(wèn)芯穹以軟硬協(xié)同核心技術(shù)構(gòu)筑“端模型+端軟件+端IP”智能終端一體化解決方案。
02
解決異構(gòu)、異域和異屬問(wèn)題
“異構(gòu)云”克服了既有算力資源利用的技術(shù)“難點(diǎn)”,連接全國(guó)算力一體化建設(shè)的布局“斷點(diǎn)”,打通算力到新質(zhì)生產(chǎn)力轉(zhuǎn)化的生態(tài)“堵點(diǎn)”。
無(wú)問(wèn)芯穹基于異構(gòu)云平臺(tái)打造了多區(qū)域算力生態(tài)平臺(tái),可匯聚異構(gòu)、異域、異屬算力,向區(qū)域下游產(chǎn)業(yè)提供集算力咨詢、交易、交付、運(yùn)營(yíng)與調(diào)度為一體的公共算力服務(wù)。具體來(lái)看分別表現(xiàn)為:
異構(gòu):多元算力優(yōu)化適配,突破基礎(chǔ)軟件壁壘使能國(guó)產(chǎn)芯片
異構(gòu)云的核心技術(shù)是異構(gòu)算力適配,即通過(guò)一系列技術(shù)手段和優(yōu)化策略,使不同芯片之間能夠高效、穩(wěn)定地協(xié)同工作,實(shí)現(xiàn)整體系統(tǒng)的最佳性能和功能表現(xiàn)。
2024年7月,無(wú)問(wèn)芯穹于業(yè)內(nèi)首次突破性地實(shí)現(xiàn)六種不同品牌芯片間的交叉混合訓(xùn)練,用華為昇騰、天數(shù)智芯、沐曦、摩爾線程四種國(guó)產(chǎn)芯片分別與超威半導(dǎo)體(AMD)、英偉達(dá)(NVIDIA)進(jìn)行聯(lián)合訓(xùn)練,算力利用率最高可達(dá)97.6%,支持700億參數(shù)規(guī)模的大模型訓(xùn)練。該技術(shù)可幫助上層用戶及任務(wù)屏蔽底層芯片差異,促進(jìn)存量算力資源與新增可控算力二者間高效融合。
異域:跨機(jī)房、跨端云訓(xùn)練,解放長(zhǎng)尾數(shù)據(jù)與算力資源價(jià)值
在異域聯(lián)合訓(xùn)練技術(shù)方面,無(wú)問(wèn)芯穹全球首創(chuàng)跨機(jī)房訓(xùn)練技術(shù)。通過(guò)并行編排機(jī)制的獨(dú)特創(chuàng)新,實(shí)現(xiàn)跨越120公里的異屬機(jī)房中集群間聯(lián)合訓(xùn)練,在通信帶寬僅有不到20GB/s 的情況下,實(shí)現(xiàn)沐曦加速卡與英偉達(dá)加速卡的跨機(jī)房混訓(xùn),最大化降低低通信帶寬的影響,使算力的性能損失保持在10%以內(nèi)。同時(shí),該技術(shù)支持云、邊數(shù)據(jù)隔離式模型訓(xùn)練。企業(yè)利用極少量邊緣算力即可實(shí)現(xiàn)和充沛云端算力的協(xié)同訓(xùn)練,高價(jià)值行業(yè)數(shù)據(jù)資產(chǎn)得以留在本地,可極大提升數(shù)據(jù)流通效率與產(chǎn)業(yè)價(jià)值。
異屬:匯聚多來(lái)源算力建設(shè)算力生態(tài)平臺(tái),賦能產(chǎn)業(yè)數(shù)智升級(jí)
在異屬算力資源高效調(diào)度方面,無(wú)問(wèn)芯穹持續(xù)打造算力資源市場(chǎng)化運(yùn)營(yíng)最佳實(shí)踐。過(guò)去3個(gè)月間,無(wú)問(wèn)芯穹已成功利用核心技術(shù)實(shí)力,先后推動(dòng)上海徐匯模速空間算力生態(tài)平臺(tái)、浙江杭州市算力資源服務(wù)平臺(tái)、北京海淀公共算力服務(wù)平臺(tái)等標(biāo)桿項(xiàng)目落地。
無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人、首席執(zhí)行官夏立雪介紹,近百家下游企業(yè)正排隊(duì)入駐上述平臺(tái)。算力生態(tài)平臺(tái)的建設(shè)有利于將算力服務(wù)從單一資源交易升級(jí)為全產(chǎn)業(yè)鏈生態(tài)引擎,既解決企業(yè)“用得起、用得好”算力的現(xiàn)實(shí)需求,也通過(guò)生態(tài)聚合效應(yīng)賦能地區(qū)構(gòu)建因地制宜的特色現(xiàn)代化產(chǎn)業(yè)體系。
無(wú)問(wèn)芯穹的“異構(gòu)云”克服了既有算力資源利用的技術(shù)“難點(diǎn)”,連接全國(guó)算力一體化建設(shè)的布局“斷點(diǎn)”,打通算力到新質(zhì)生產(chǎn)力轉(zhuǎn)化的生態(tài)“堵點(diǎn)”。結(jié)合人工智能應(yīng)用開(kāi)發(fā)工具鏈,提升算力基礎(chǔ)設(shè)施對(duì)大模型廣泛應(yīng)用的支持水平,讓算力真正成為推動(dòng)數(shù)智化轉(zhuǎn)型的核心引擎。
03
智能終端的機(jī)會(huì)
無(wú)問(wèn)芯穹以軟硬協(xié)同核心技術(shù)優(yōu)勢(shì)打造了“端模型+端軟件+端IP”智能終端一體化解決方案。
智能終端是將我國(guó)數(shù)字技術(shù)突破與制造優(yōu)勢(shì)、市場(chǎng)優(yōu)勢(shì)更好結(jié)合的最佳“反應(yīng)界面”。隨著多模態(tài)、強(qiáng)推理、端芯片等端側(cè)大模型技術(shù)拐點(diǎn)的到來(lái),數(shù)十億終端將邁入大模型時(shí)代,實(shí)現(xiàn)人機(jī)交互范式的根本性變革。
然而,動(dòng)輒百億參數(shù)規(guī)模的大模型部署對(duì)端側(cè)設(shè)備的計(jì)算能力、功耗和存儲(chǔ)空間都提出了巨大挑戰(zhàn)。將模型安裝終端本地環(huán)境后,模型性能損失、推理速度太慢、功耗效益低下等困境將影響智能消費(fèi)終端的發(fā)展,限制自動(dòng)駕駛感知決策、無(wú)人機(jī)路徑規(guī)劃、動(dòng)作決策等場(chǎng)景的落地效果。
為此,無(wú)問(wèn)芯穹以軟硬協(xié)同核心技術(shù)優(yōu)勢(shì)打造了“端模型+端軟件+端IP”智能終端一體化解決方案,以頂尖的終端AI系統(tǒng),在更加苛刻的硬件資源限制下,深度協(xié)同應(yīng)用場(chǎng)景,實(shí)現(xiàn)算法模型、推理引擎、系統(tǒng)調(diào)度、芯片架構(gòu)的全鏈路優(yōu)化閉環(huán)。已發(fā)布全球首個(gè)多模態(tài)3B輕量化開(kāi)源模型,同精度下推理速度領(lǐng)先其他模型300%;自研智能終端大模型推理引擎,在多種硬件上推理性能達(dá)行業(yè)第一;自研第二代大模型推理處理器LPU,實(shí)現(xiàn)智能終端推理性能和能效的量級(jí)提升。
端模型:多模態(tài)模型端側(cè)輕量化部署,升級(jí)關(guān)鍵生產(chǎn)力工具
大模型能力正從云側(cè)逐漸下沉至終端,逐漸加深對(duì)視覺(jué)、聽(tīng)覺(jué)等更多模態(tài)信息的理解,終端需要實(shí)現(xiàn)更匹配人類感官感受的新交互范式。
2024年12月,無(wú)問(wèn)芯穹推出全球第一款端側(cè)全模態(tài)理解開(kāi)源模型Megrez-3B-Omni,實(shí)現(xiàn)端上圖像、音頻、文本模態(tài)數(shù)據(jù)的極速推理,并在三個(gè)模態(tài)的多種測(cè)評(píng)基準(zhǔn)中都取得了最優(yōu)性能,推理速度最大可領(lǐng)先同精度模型300%,同時(shí)還特別提供了WebSearch 功能,可以自動(dòng)決策工具調(diào)用時(shí)機(jī),用戶得以構(gòu)建屬于自己AI搜索,通過(guò)網(wǎng)絡(luò)獲取最新信息,克服小模型的幻覺(jué)問(wèn)題和知識(shí)儲(chǔ)備不足的局限。
端軟件:支持端側(cè)AI更高效落地,協(xié)同基礎(chǔ)軟硬件系統(tǒng)運(yùn)行
隨著優(yōu)質(zhì)數(shù)據(jù)資源價(jià)值挖掘觸頂,未來(lái)模型能力增長(zhǎng)將轉(zhuǎn)向依賴推理時(shí)的迭代計(jì)算,以此提升模型指令遵循能力和復(fù)雜任務(wù)處理能力,這將推動(dòng)產(chǎn)業(yè)中10—100倍的推理開(kāi)銷需求增長(zhǎng)。
無(wú)問(wèn)芯穹自研智能終端推理加速引擎Mizar 適配Intel、AMD、NVIDIA等硬件平臺(tái),支持各種終端設(shè)備CPU、GPU 和NPU 的同時(shí)推理,還能通過(guò)跨越軟硬件層次的系統(tǒng)優(yōu)化,為多款智能終端設(shè)備額外帶來(lái)70% 以上的性能提升,最大化端側(cè)硬件性能的利用,已在聯(lián)想多款型號(hào)產(chǎn)品中完成適配,將伴隨最新版本產(chǎn)品預(yù)裝量產(chǎn)和上線。
端IP:軟硬件一體化設(shè)計(jì),以AI推理硬件為智能終端提速增效
多模態(tài)模型與推理時(shí)計(jì)算的范式變化使得智能終端的算力與帶寬需求激增,現(xiàn)有端芯片已無(wú)法滿足泛端側(cè)智能應(yīng)用需求。無(wú)問(wèn)芯穹長(zhǎng)期堅(jiān)持軟硬件協(xié)同優(yōu)化技術(shù)路線以實(shí)現(xiàn)硬件效能的數(shù)量級(jí)提升,而非單純依賴硬件工藝的緩慢迭代,自研第二代大模型推理處理器LPU(Large-model Processing Unit)IP,采用了“算法-軟件-架構(gòu)-工藝”協(xié)同優(yōu)化設(shè)計(jì),支持文生文、文生圖與文生視頻等大模型在智能終端上的高性能、低功耗推理,可大幅降低大模型終端產(chǎn)業(yè)部署成本,支撐人工智能在新型消費(fèi)電子、創(chuàng)新型硬件制造以及工業(yè)、服務(wù)、醫(yī)療等眾多場(chǎng)景中的高質(zhì)量落地。
無(wú)問(wèn)芯穹基于軟硬件協(xié)同設(shè)計(jì)核心技術(shù)能力,打造的“端模型+端軟件+端IP”智能終端一體化解決方案,可適用于多樣化新一代智能終端, 致力于實(shí)現(xiàn)10倍以上的推理吞吐和能效提升,正與聯(lián)想等行業(yè)伙伴一起打造下一代現(xiàn)象級(jí)新終端與端云協(xié)同計(jì)算新范式,推動(dòng)端側(cè)輕量化模型在垂類終端如智能網(wǎng)聯(lián)新能源汽車、人工智能手機(jī)和電腦、智能機(jī)器人以及智能制造裝備中的規(guī)模化落地。



