靠“口說”就能實現的實時3D場景有多厲害？

首頁 -> 視頻 ->通時事

靠“口說”就能實現的實時3D場景有多厲害？

分享到：

2026-01-29 09:04 | 稿件來源：香港中通社

【字號：大中小】

　　【解說】近年來人工智能技術不斷發展，利用AI指令實施生成3D場景的技術也隨之進入爆發期，AI與3D技術的融合已經從單純的“實驗模型”逐漸演化變為實用級別的生產力工具。

　　【解說】近日，香港大學團隊發佈了最新研發出的創新型生成式的人工智能，透過語音及文字向人工智能發出指令後，便可在短時間內獲得相應的三維場景。該技術可應用於各行各業，在進行產品設計及介紹時都可發揮作用，不再局限於單一物件，而是能夠通過指令即時生成完整的空間佈局。

　　【同期】香港大學電機電子工程系副教授　黃毅

　　我們想做一個示範，就是由語音生成文字，然後文字又進入大模型，就會產生一個圖片。不只是一張2D的圖片，不是平面的，我們再將這個圖片放進去一個生成式的AI模型裡面，就可以產生一個3D的場景。好處是在各方各面我們可以將人的想象化為語言，產生一個立體的場景。應用方面就是五花八門，例如我要生成一個機器人，你講完之後，它就可以生成出來，這就變成了可以很即時地將你的想象化為一個可以肉眼可見的場面。我們還有各方各面的應用，例如我是教育界的，我想和小學生一起去旅行，例如我想帶團去敦煌，但是我又不想很麻煩地訂機票，我就可以帶小朋友來這間實驗室，這樣就不用去敦煌，就好像是叮噹貓裡面打開一個小門，就來到了敦煌。這樣就可以在教育界用一個比較低的成本，“帶隊”去不同的地方做一個考察；也有一些商業的應用，例如我是做室內設計的，如果客人要泰國風，日本風，西歐（風格的設計），我可以這樣一邊講，室內就可以變成這樣風格的裝修。而且我可以很容易將傢俬進行擺位，這邊放一張歐式的沙發，那邊放一張藤椅，都可以立刻做到，所以無論是從遊戲、從教育還是從商業的角度來看，這種技術都可以大大加速場景的生成，最重要的是可以大大降低成本。

　　【解說】黃毅教授表示，目前香港的大部分AI技術團隊仍集中於在算法上進行升級。不過有不少想法無法最終在硬件上落地，其中主要原因是由於在AI運算中所需搭載的GPU卡價格昂貴。

　　【同期】香港大學電機電子工程系副教授　黃毅

　　其實AI除了算法之外，最後跑出來要經過運算，所以我們在這些裡面需要用到GPU卡，GPU卡一般比較貴，其實我們最終的目的是想要在一些比較廉價的硬件上，例如手機或者是智能手錶，或者現在正在慢慢出現的智能眼鏡上面，都可以做到一些3D的效果。這一項是比較難的，因爲模型一般比較大，現在強一點的模型都需要在雲端上面跑，我們港大和這間公司的聯合實驗室，就希望最後可以將所有的算法模型都可以擺在一些所謂的邊緣硬件上，相對比較便宜，算力比較低的軟件上面都可以跑得通。

　　【解說】想要在芯片性能較弱、價格低廉的硬件上實現實時的3D生成，仍須透過演算法的不斷壓縮與渲染架構的革新才能達到。而要令技術走進千家萬戶，未來仍有很長一段路要走。

　　【同期】香港大學電機電子工程系副教授　黃毅

　　第一步，我們會在手機端嘗試。我們希望可以在例如家裡的電視（先嘗試），電視的價格比手機還便宜，電視裡面的運算芯片不是很強，我們希望我們的技術可以將模型壓縮，甚至將它做到讓一些比較弱的芯片，都可以跑得通這樣立體實時生成的功能。現在的模型還是主要在GPU卡上面跑，有的還會在雲端上面跑，這些不是所有公司都可以負擔得起的，我們想做的就是跨越這個障礙。這個就是我的團隊主力做的科研，怎麼樣將一些大模型（進行）量化，就好像一個園丁修剪一棵樹，將它從很大剪到很小，但還可以欣賞得到，我們就是做這件事，將大模型壓縮到足夠小，並且足夠簡單，讓一些弱一點的硬件都可以跑得通，這個就是我們這個聯合實驗室最終所希望達到的目的。

　　記者付鈺朱樂怡香港報道