過去一年,行業談論大模型創新時,普遍還是聚焦在推理能力、多模態融合這些方向,尤其是文本生成圖片和視頻這樣的新玩法。
海外的 OpenAI、Google、Anthropic 動作頻頻,國內的阿里、騰訊、字節、快手、、MiniMax 等大廠和創業公司也都跟進得很積極,整個行業幾乎都在圍繞這些熱點方向展開激烈競爭。
但騰訊這家公司其實挺有意思。我也是昨天才發現,雖然它在前面說到的那些熱門領域也都有布局,但與此同時,它還一直悶頭在一個沒那么熱鬧的方向默默深耕——3D 生成。
要不是昨天和行業的同學聊天,我根本意識不到騰訊居然已經把 3D 模型的能力做到了全世界頂流的水準。不過話說回來,這也符合騰訊一貫務實低調的作風。所以,我今天必須單獨寫寫這個模型,估計很多游戲、影視、文旅行業的同學能夠用得著。
過去這幾年,AI 內容的進化基本是從文本到圖像、再到視頻一路推進,2D 世界幾乎都已經被 AI 啃下來了。特別是今年,我們看到行業內的圖像和視頻生成能力,已經遠超預期,而且發展的后勁還很足。
但回到現實,咱們生活的世界從來都是三維的。不管現在炒得很熱的,還是之前元宇宙這些前沿場景,歸根結底都得落回到 3D 建模、三維理解這件事上。
而騰訊,這一兩年,通過自家的混元 3D 模型,幾乎是悄無聲息地把 3D 生成這件事做到了行業前列。上周,在計算機視覺領域頂會之一的 CVPR2025 上,騰訊正式開源了混元 3D 2.1 大模型,并且是從模型權重、訓練代碼,到數據處理流程上全鏈路開源。
截了個圖,現在 Hugging Face 上,Hunyuan3D-2.1 已經直接沖到 3D 模型類目的榜首。可見其行業影響力。
在騰訊還沒開源混元 3D 模型之前,行業內其實沒有真正可用、完全開源的 3D 生成大模型。雖然 Google、OpenAI 這些大公司也都做過一些技術探索,比如 Google 的 DreamFusion、Magic3D,還有 OpenAI 的 Point-E、Shap-E 模型。
但這些模型基本都還停留在實驗階段,效果比較有限,細節、材質的質量和生成效率距離商業化落地還差得挺遠,更重要的是也并未真正完全開源。所以實際用起來并不容易,開發者們想用這些模型做點具體業務、落地項目還是困難重重。
2024 年 11 月,騰訊發布了混元 3D 模型的初代版本(1.0),當時圈內關注的人不多,我自己也是最近回過頭去補課才發現的。
初代模型大致能實現輸入一段文本或一張圖,就自動給你生成一個 3D 模型,甚至還能自動幫模型綁好骨骼,做出簡單的動畫效果。之前這些活基本得專門的建模師和動畫師手工一點點來,現在初代版本的混元 3D 模型已經基本能幫開發者省掉不少時間。
重要的是,騰訊在當時就把模型完整地開源了出去,模型的權重、參數這些全都可以直接拿去用。雖然初代版本的效果肯定不能跟現在比,但它確實給當時關注 3D 方向的人帶來了不小的驚喜。
因為在那個階段,OpenAI、Google 這些國際 AI 明星公司,在 3D 模型的研究方向上其實已經陷入了停滯狀態。結果沒想到,半路突然殺出了一家中國公司,居然率先做出了真正能用的開源 3D 模型。
兩個多月后,也就是 2025 年的 1 月,騰訊繼續更新了混元 3D 模型的 2.0 版本。這次發布的 2.0 版在效果上提升得還挺明顯,主要體現在兩個方面:
一方面是模型對文本描述的理解明顯精準了不少,之前版本偶爾還會出現模型和文字描述對不上號的情況,現在基本上給一段文本,它能生成的 3D 模型形狀和細節都準確得多了。
另一方面則是幾何精度,這版生成的模型細節更多、輪廓更精確,當時已經明顯超過行業內能拿得出手的幾個主流 3D 模型。
幾何精度是個行業內的專業名詞。
我找朋友給我解釋了下,他說“幾何生成”其實就是用算法自動造出三維物體的形狀。可以把它想象成小時候玩橡皮泥,捏出各種小動物、房子、汽車。
只不過這次不是用手捏,而是讓電腦自己捏,輸入一段描述,模型就能憑空生成出一個 3D 模型,比如一只貓、一把椅子。這個過程中,電腦要決定每個點、每條線、每個面的具體位置和形狀。這就是所謂的幾何生成。
幾何生成對最終 3D 生成效果的影響是決定性的。打個比方,一個 3D 物件,幾何生成就是它的骨架,后面的材質和渲染就是皮膚和化妝。
骨架搭得好不好,直接決定了你最后能不能做出個像樣的人,還是一團四不像的橡皮泥。當時 1 月發布的 2.0 模型,就在幾何生成方面有質的突破。
與 2.0 版本同時到來的,還有混元 AI 3D 創作引擎。你可以把它理解成一個面向 3D 創作場景的 Midjourney 或者 Sora。區別在于,它不是生成一張圖或者一段視頻,而是可以一句話生成一個完整的三維模型,并且創作引擎提供了一站式的能力,除了生成外,還可以進行編輯,以及工作流的定制。
現在我再去審視,感覺騰訊應該是把他們對于 3D 內容 AI 創作這事的構想放到了這個創作引擎之中。
到了今年 3 月,騰訊又把混元 3D 的開源節奏往前推了一步。這次他們不是只更新主力模型,而是同時開源了五個衍生版本,全部都是基于 Hunyuan3D-2.0 打造出來的,針對不同的使用場景做了優化。
有的輕量化,顯存要求低;有的速度特別快,可以在很短的時間內生成完整的 3D 模型;也有支持多視角輸入的版本,適合用來做更復雜的結構還原。
4 月份騰訊繼續“上新”,又把模型迭代到了 2.5 版本。這個速度,你可以看到,基本 1-2 個月一個版本,非常快。這次 2.5 版本的更新,模型架構從原來的 1B 升到了 10B 參數量,幾何精度、細節密度、貼圖質量都有明顯提升。
生成的 3D 模型,不光輪廓更準、細節更豐富,還能直接帶上高清紋理和凹凸貼圖,光影、材質的真實感也上了一個新臺階。
更關鍵的是,這一代在動畫制作場景也做了適配。骨骼系統升級后,開始支持非標準姿態下的自動 rig 和蒙皮(簡單說,就是模型能自動識別骨架、貼上“皮膚”,直接進入可動狀態),省掉了原本動畫師要手動處理的大量復雜工作。
我個人覺得,從這個版本開始,混元的模型就正式進入生產級場景了。質感整體上了一個大臺階。
然后最近的一次升級就是開頭提到的 2.1 版本。你可能會迷惑,怎么還和 OpenAI 一樣,把版本號倒回去了?是這樣。4 月發布的 2.5 版本,并沒有開源,而是上線到了騰訊云上。而這次的 2.1 是在之前2.0 開源版的增強版,也是當前開源模型中的?SOTA。
2.1?最大的突破是融合了?PBR紋理生成技術。PBR(Physically Based Rendering,基于物理的渲染)在 3D 領域其實已經是行業標準,但此前自動化生成 3D 模型時,能做到高質量貼圖的方案并不多見。
混元 3D 2.1 把 PBR 貼圖納入生成流程后,輸出的 3D 模型在光影、材質、表面細節上的還原度有了明顯提升,能夠直接用于游戲、影視、虛擬場景等下游應用,減少了后期美術團隊的重復勞動。
毫無疑問,3D 模型領域,騰訊的混元絕對是當前效果最好的開源模型。
回過頭來看,騰訊能把 3D 生成這條線走通,說到底還是因為它踩在了自己最熟悉的領域里,能把技術和業務結合到一起。我們都知道,游戲中,角色、場景、動畫這些核心資產,全都離不開 3D。
AI 浪潮起來后,騰訊其實就是把自己業務里沉淀下來的關于 3D 的方法論和技術經驗,直接和模型能力融合了,落地也自然而然。我一直認為,企業做事很難跳出自己的能力圈。
騰訊能把 3D 生成做到這個程度,本質上還是因為每一步都貼著實際需求在走。3D 模型質量越高,游戲團隊越能省力,生產效率和成本都能優化下來。這和單純做模型炫技完全不是一回事。
期待騰訊能繼續造出來更好的 3D 模型。也許等到下一個內容產業的拐點到來時,3D 生成的突破會成為那個決定格局的關鍵變量。



