開云直播中心:沈向洋深圳硬核演講:具身智能是大灣區(qū)的非凡機(jī)遇靈巧手是人類最后尊嚴(yán)
開云體育官方入口登錄:
機(jī)器人前瞻11月22日報(bào)道,今天,一年一度的IDEA大會(huì)在深圳舉行。這場人工智能盛會(huì)由IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋發(fā)起,深入探討了關(guān)于AI發(fā)展、AI Agent、具身智能、低空經(jīng)濟(jì)等前沿技術(shù)與熱點(diǎn)議題。
沈向洋進(jìn)行了近3個(gè)小時(shí)主題演講,期間發(fā)布了多個(gè)IDEA研究院創(chuàng)新成果,包括企業(yè)決策智能體、數(shù)據(jù)分析智能體、藥物計(jì)算發(fā)現(xiàn)平臺、金融大模型、GPU原生渲染器、視覺大模型、低空管理與服務(wù)操作系統(tǒng)等。
想要理解人工智能演進(jìn),沈向洋強(qiáng)調(diào),需要在算力、算法和數(shù)據(jù)之外,增加兩個(gè)考慮維度:交互與載體。如今,談大模型總繞不開英偉達(dá)CEO黃仁勛,沈向洋打趣說,“黃仁勛每天醒來都在笑,全世界的人在給他捐錢。。”
在具身智能方面,沈向洋對格外看重靈巧手,強(qiáng)調(diào),“人手的魔法在于它手既能搬箱子,也能穿針引線。所以,靈巧手可以說是人類在人工智能面前,最后的尊嚴(yán)。”他還提到去年與黃仁勛的對談時(shí),黃仁勛說,“具身智能是粵港澳大灣區(qū)非凡的機(jī)遇?!?
據(jù)了解,IDEA大會(huì)于2021年首度舉行,匯聚產(chǎn)學(xué)研企界領(lǐng)袖,致力構(gòu)建一個(gè)凝聚數(shù)字化的經(jīng)濟(jì)多方力量的國際化平臺,是粵港澳大灣區(qū)最具影響力的科技盛會(huì)之一。
除了廣為人知的了算力、算法、數(shù)據(jù)這三要素之外,沈向洋提出,未來理解AI的演進(jìn)還必須加入兩個(gè)維度:交互和載體。
算法是AI發(fā)展的核心支撐。AI的算法演進(jìn)有三個(gè)階段:監(jiān)督學(xué)習(xí)構(gòu)筑表達(dá)與生成能力,強(qiáng)化學(xué)習(xí)引入因果與執(zhí)行,自主學(xué)習(xí)邁向高層認(rèn)知。技術(shù)本身從Transformer架構(gòu)出發(fā),向更高效、更穩(wěn)健的體系演化;從自回歸到擴(kuò)散,再到混合式生成方法,這些變化一同推動(dòng)智能的表達(dá)邊界不斷拓展。
AI的載體發(fā)展遵循從抽象到具體、從虛擬到物理的擴(kuò)展路徑:從早期的語言模型,逐步演進(jìn)到涵蓋聲音、圖像、視頻甚至4D內(nèi)容的多模態(tài)模型;在此基礎(chǔ)上,融入物理世界規(guī)律的世界模型成為新方向,而當(dāng)世界模型落地到機(jī)器人、無人駕駛車輛、飛行器等物理實(shí)體時(shí),便形成了具身模型。
“從載體的這個(gè)維度來看,AI很快就會(huì)讓我們從理解這樣一個(gè)世界,走向改變這樣一個(gè)世界?!鄙蛳蜓笳f。
過去七八十年,計(jì)算機(jī)科學(xué)的一條主線就是人機(jī)交互方式的演進(jìn):從命令行,到圖形界面,到互聯(lián)網(wǎng)搜索,再到推薦系統(tǒng)。AI的到來,則帶來了自然語言和多模態(tài)的交互。
早期的第一代大模型,更像問一句答一句的搜索;而近兩年的推理模型則讓對話成為一個(gè)持續(xù)迭代的過程:你問、它答,你再追問、它再推理,過程越來越像真實(shí)的科研活動(dòng)。
在他看來,“探索世界就應(yīng)該是Search less,research more?!蔽磥?,AI會(huì)慢慢的多地主動(dòng)提出問題、主動(dòng)執(zhí)行任務(wù),但在人機(jī)系統(tǒng)中,人仍需在關(guān)鍵節(jié)點(diǎn)做決策、做最終判斷,以確保AI的行為不偏離邊界。
GPU從2006年作為通用并行計(jì)算系統(tǒng)起步,從打游戲到“挖礦”再到支撐大模型訓(xùn)練,如今已成為基礎(chǔ)設(shè)施。但當(dāng)前算力需求呈現(xiàn)新變化:推理需求已經(jīng)遠(yuǎn)超訓(xùn)練,端側(cè)芯片和強(qiáng)化學(xué)習(xí)專用芯片的需求也迅速上升。強(qiáng)化學(xué)習(xí)芯片必須支持高速交互和大規(guī)模并行,推理芯片則要做到低功耗、高吞吐。
GPU刺激了深度學(xué)習(xí)的第一波爆發(fā),但能耗與成本也不斷攀升。隨著應(yīng)用多樣化,推理、端側(cè)、強(qiáng)化學(xué)習(xí)等專用芯片不斷涌現(xiàn);未來光子、量子、類腦等也可能在特定領(lǐng)域帶來性能躍升。
在智能演進(jìn)的三個(gè)階段,數(shù)據(jù)扮演不同的角色:在模擬世界階段,數(shù)據(jù)是靜態(tài)教材;在探索世界階段,數(shù)據(jù)是動(dòng)態(tài)反饋;在歸納世界階段,數(shù)據(jù)是驗(yàn)證假設(shè)的證據(jù)。
當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)、探索世界時(shí),模型需要的就不再是靜態(tài)數(shù)據(jù),而是帶反饋的動(dòng)態(tài)數(shù)據(jù)。沈向洋用一個(gè)樸素的類比強(qiáng)調(diào)這一點(diǎn):“就像騎自行車這件事,你光看書的話不可能會(huì)學(xué)會(huì)騎自行車的?!?
從人類數(shù)據(jù)枯竭到合成數(shù)據(jù)興起,再到AI主動(dòng)探索并獲取實(shí)驗(yàn)數(shù)據(jù),這一過程代表著數(shù)據(jù)從限制模型能力的約束,逐步轉(zhuǎn)變?yōu)橥苿?dòng)AI主動(dòng)學(xué)習(xí)的工具。
在沈向洋看來,未來AI最強(qiáng)大的能力之一,是能夠自己提出假設(shè),并自己收集證據(jù)來提升智能水平。在這個(gè)過程中,數(shù)據(jù)和智能是相互推動(dòng)的。
合成數(shù)據(jù)已經(jīng)成為大模型訓(xùn)練的剛需要素,尤其在小語種、隱私敏感行業(yè)、小樣本場景等長尾領(lǐng)域,數(shù)據(jù)稀缺更是主要瓶頸。
成立于2025年的DataArc數(shù)創(chuàng)弧光,專注大模型合成數(shù)據(jù)技術(shù),是IDEA研究院成立以來孵化速度最快的項(xiàng)目,成立不足一年已完成兩輪融資。本屆大會(huì)上,DataArc發(fā)布了SynData開源框架。
在沈向洋看來,除了數(shù)據(jù)層面的機(jī)會(huì),模型層面也遠(yuǎn)不止超大模型這一條路,各類垂直應(yīng)用場景同樣蘊(yùn)含巨大空間。金融,就是其中的典型代表。
傳統(tǒng)金融投資面臨行情預(yù)判精度不足、風(fēng)險(xiǎn)管控難度較大的挑戰(zhàn),Quant 5.0融合AI技術(shù),憑借大參數(shù)算力支撐及高頻數(shù)據(jù)訓(xùn)練,可支持三類任務(wù):對未來收益和走勢的預(yù)測,服務(wù)投資決策;為交易所、監(jiān)管機(jī)構(gòu)及機(jī)構(gòu)投資者提供風(fēng)控能力;為監(jiān)管與決策提供市場模擬和壓力測試工具。
由于Quant 5.0是通用時(shí)間序列底座模型,它可以輕松遷移到其他市場、其他資產(chǎn)類別以及其他交易策略上,并通過Agent方式實(shí)現(xiàn)策略自動(dòng)化部署。
現(xiàn)場發(fā)布了國內(nèi)首個(gè)提供公共服務(wù)的工業(yè)級AI驅(qū)動(dòng)GPU渲染引擎SMARAY,在保證高質(zhì)量渲染效果的前提下,其渲染效率較傳統(tǒng)渲染器提升數(shù)十至數(shù)百倍,且可兼容主流動(dòng)畫特效建模軟件,無需改變現(xiàn)有工作流 。
目前,SMARAY已獲《流浪地球2》視效制作方More VFX、《哪吒》系列出品方光線動(dòng)畫等頭部影視團(tuán)隊(duì)項(xiàng)目實(shí)踐驗(yàn)證。
另外,現(xiàn)場還介紹了IDEA研究院的MoonBit團(tuán)隊(duì)的最新成果。MoonBit是IDEA研究院自研的AI時(shí)代新編程語言,今年,MoonBit從支持多后端的編程語言,逐步演進(jìn)為涵蓋AI原生工具集的全棧工具鏈,覆蓋WebAssembly邊緣計(jì)算、C/LLVM系統(tǒng)編程、JavaScript前端開發(fā)等全場景,構(gòu)建起集開發(fā)者工具鏈與智能體開發(fā)生態(tài)于一體的開發(fā)者平臺。
今年,MoonBit也開放了全球首個(gè)語言原生的智能體開發(fā)環(huán)境MoonBit Pilot,智能輔助生成MoonBit工具包,可快速擴(kuò)展MoonBit生態(tài)。
下個(gè)月,IDEA研究院將正式開源用MoonBit編程語言開發(fā)的智能體平臺MoonBit agent SDK,支持使用多種編程語言。
截至目前,MoonBit社區(qū)用戶已從早期的500人、去年的2.6萬人,增長到十萬級規(guī)模;全球貢獻(xiàn)代碼行數(shù)超過1000萬行,生態(tài)庫約3000個(gè)。
AI Agent是大模型落地的重要產(chǎn)品載體,也是人工智能行業(yè)從業(yè)者多年來關(guān)注的核心方向。進(jìn)入2025年,全球尤其是中國的AI Agent創(chuàng)新全面爆發(fā)。沈向洋從四個(gè)層面來梳理AI Agent的影響:個(gè)體、公司、治理與創(chuàng)新。
AI Agent帶來了生產(chǎn)力的巨大提升,徹底改變了傳統(tǒng)工作模式,一個(gè)人加上一堆AI Agent,就會(huì)成為所謂的超級個(gè)體。這種生產(chǎn)力的飛躍直接推動(dòng)了生產(chǎn)關(guān)系、組織機(jī)構(gòu)、分工形式與協(xié)同方式的變革,而成為超級個(gè)體的關(guān)鍵在于是否愿意學(xué)習(xí)和運(yùn)用AI Agent。
沈向洋判斷,未來慢慢的變多企業(yè)將成為“AI Native公司”,從組織結(jié)構(gòu)到業(yè)務(wù)流程,從供應(yīng)鏈到市場拓展,都圍繞AI重新設(shè)計(jì)。
為此,IDEA研究院推出了KAIROS決策智能體,核心就是讓AI真正進(jìn)入企業(yè)的決策鏈路。
其能通過三大能力打造“決策-執(zhí)行-反饋”閉環(huán):一是借助通用大模型語言理解能力,結(jié)合企業(yè)數(shù)據(jù)與經(jīng)驗(yàn),精準(zhǔn)解讀業(yè)務(wù)需求;二是針對復(fù)雜決策提供更優(yōu)的端到端優(yōu)化方案;三是通過自動(dòng)編程、代碼生成實(shí)現(xiàn)模型自適應(yīng)演變,降低維護(hù)成本。
落地場景中,KAIROS應(yīng)用覆蓋物流、倉儲、港口、零售等多場景,可支撐規(guī)劃類、調(diào)度類、預(yù)測類等全類型決策。
在政府治理體系中,統(tǒng)計(jì)部門是一類關(guān)鍵角色。長期以來,統(tǒng)計(jì)局的工作人需要“肩挑手扛”:去各處找數(shù)據(jù)、整材料,為領(lǐng)導(dǎo)寫報(bào)告。而大模型的發(fā)展,正在推動(dòng)這項(xiàng)流程走向自動(dòng)化和智能化。
IDEA研究院去年發(fā)布的“經(jīng)濟(jì)超腦1.0”已能看懂?dāng)?shù)據(jù)、理解背后邏輯,而升級后的“經(jīng)濟(jì)超腦2.0”,可構(gòu)建全流程自動(dòng)化數(shù)據(jù)分析體系,依托Agents驅(qū)動(dòng)的智能框架,實(shí)現(xiàn)效率提升10-30倍,關(guān)聯(lián)模糊需求與業(yè)務(wù)指標(biāo)、自動(dòng)拆解宏觀分析需求,讓數(shù)據(jù)分析回路從被動(dòng)調(diào)試升級為主動(dòng)修正,推動(dòng)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的智能化決策,釋放數(shù)據(jù)資產(chǎn)價(jià)值以形成更優(yōu)政策建議。
去年,IDEA研究院已發(fā)布分子、抗體、反應(yīng)、藥物文獻(xiàn)四大化學(xué)大模型;今年取得更大突破,研發(fā)的LightUnity模型用于創(chuàng)新藥發(fā)現(xiàn)。
在此基礎(chǔ)上,IDEA研究院發(fā)布Mozi平臺,以“Agent+Toolbox”模式,結(jié)合多智能體架構(gòu)、專家工具箱與自動(dòng)化流程,解決傳統(tǒng)藥物早期計(jì)算發(fā)現(xiàn)中工具誤導(dǎo)、研發(fā)黑箱、工作流瓶頸等痛點(diǎn)。
不久前,傳聞特斯拉人形機(jī)器人因手部“難產(chǎn)”而被迫縮減生產(chǎn)計(jì)劃。沈向洋表示,在具身智能的眾多攻關(guān)點(diǎn)里,靈巧手是技術(shù)復(fù)雜度的珠峰。
他分享到,今年的深圳智能機(jī)器人靈巧手大賽,是國內(nèi)首個(gè)將靈巧手技術(shù)與即時(shí)配送場景結(jié)合的賽事。從取包裹、拆包裹、折紙箱、到按電梯,以場景為旗幟,以需求為標(biāo)尺,牽引技術(shù)前進(jìn)的方向。
在具身智能技術(shù)發(fā)展中,視覺感知是AI與物理世界交互的核心基礎(chǔ),更是賦能“感知-決策-執(zhí)行”閉環(huán)的關(guān)鍵支撐。一年前,DINO-X視覺大模型誕生,以開放世界檢驗(yàn)測試能力,“讓機(jī)器看懂物理世界”。
今年IDEA大會(huì)上,DINO-X Grasp發(fā)布,實(shí)現(xiàn)世界開集2D認(rèn)知理解、物體級抓取位姿預(yù)測、物體級3D形狀感知,打造“更強(qiáng)”具身大腦。
福田實(shí)驗(yàn)室:這是由粵港澳大灣區(qū)數(shù)字化的經(jīng)濟(jì)研究院(IDEA)與騰訊合作共建的省級實(shí)驗(yàn)室,旨在通過跨領(lǐng)域合作提升研發(fā)技術(shù)能力,聚焦人居環(huán)境具身智能領(lǐng)域的研究。福田實(shí)驗(yàn)室聯(lián)合騰訊Robotics X實(shí)驗(yàn)室推出的Tairos具身智能開放平臺,是一款以模塊化方式提供大模型、開發(fā)工具與數(shù)據(jù)服務(wù)的具身智能軟件平臺。
國際先進(jìn)的技術(shù)應(yīng)用推進(jìn)中心(深圳):聚焦人工智能、具身智能、低空經(jīng)濟(jì)等重點(diǎn)領(lǐng)域,依托粵港澳大灣區(qū)數(shù)字化的經(jīng)濟(jì)研究院建設(shè)的先進(jìn)的技術(shù)應(yīng)用推廣平臺。
深港高等研究交流中心(SHARE):旨在依托深圳與香港的區(qū)位優(yōu)勢和大灣區(qū)的優(yōu)質(zhì)科研教育資源,搭建跨學(xué)科科研合作與國際交流平臺。中心聚焦人工智能賦能的前沿科學(xué)問題,推動(dòng)其在生物醫(yī)藥、材料科學(xué)、低空經(jīng)濟(jì)、無線通信、具身智能等關(guān)鍵領(lǐng)域的應(yīng)用與突破。
會(huì)上,孵化自IDEA研究院的視覺大模型企業(yè)視啟未來還宣布完成近億元天使輪融資,該團(tuán)隊(duì)創(chuàng)始人兼CEO張磊曾任微軟總部及亞洲研究院首席研究員。
低空經(jīng)濟(jì)方面,大會(huì)發(fā)布的OpenSILAS 2.0,通過可進(jìn)化框架解構(gòu)六大核心技術(shù),依據(jù)城市與空域復(fù)雜度構(gòu)建產(chǎn)品矩陣,實(shí)現(xiàn)“規(guī)劃—運(yùn)行—監(jiān)管—服務(wù)”全環(huán)節(jié)管理與全流程服務(wù),以分級化、模塊化提供可落地?cái)U(kuò)展方案。
回到沈向洋反復(fù)提到的智能演進(jìn)曲線,今天看到的,不只是一個(gè)個(gè)炫目的模型和 Demo,而是新一輪技術(shù)范式剛剛起步的信號。算力、算法、數(shù)據(jù)在加速迭代,交互和載體在重塑人機(jī)邊界,AI 正從“問一句答一句”的工具,走向能與人類協(xié)同推理、共創(chuàng)知識的長期伙伴。
當(dāng)被問及關(guān)于中美AI發(fā)展的差距時(shí),沈向洋覺得,AI發(fā)展至少能夠理解為兩個(gè)維度:一條是“攀登珠峰”,以巨額投入追求最強(qiáng)模型;另一條是“修公路”,讓更多人和更多場景用得上AI,讓模型在更大范圍內(nèi)規(guī)?;瘧?yīng)用,在每件事情上,都要走對自己最合適的發(fā)展之路。
未來,隨技術(shù)迭代與場景深耕的雙向賦能,AI將更深刻地融入千行百業(yè),開啟智能社會(huì)的全新階段。
,開云體育網(wǎng)頁入口