44444免费观看高清电视剧直播-444444在线观看免费高清电视剧-444444影院免费播放电视剧大全下载-4444444444免费观看电视剧

網(wǎng)站首頁 | 網(wǎng)站地圖

每日推薦
首頁 > 一線調研 > 正文

靈寶機器人團隊在具身智能新賽道上不斷突破

讓機器人“心靈手巧”(科技視點·一線探創(chuàng)新)

圖①:靈寶機器人具身算法工程師王思成在演示機器人抓取物體。

圖②:靈寶機器人模仿學習算法工程師孫建涌在調試機器人夾爪。

圖③:靈寶機器人具身操作中心負責人周明才對人形機器人進行調試。

以上圖片均為北京中科慧靈機器人技術有限公司提供

習近平總書記強調,“推進中國式現(xiàn)代化,科學技術要打頭陣,科技創(chuàng)新是必由之路”“在激烈的國際競爭中,我們要開辟發(fā)展新領域新賽道、塑造發(fā)展新動能新優(yōu)勢,從根本上說,還是要依靠科技創(chuàng)新”。

在高校院所、企業(yè)車間,一線科研人員瞄準科技前沿,潛心研究、創(chuàng)新攻關,為加快建設科技強國,實現(xiàn)高水平科技自立自強持續(xù)奮斗。本版今起推出“一線探創(chuàng)新”系列報道,通過記者在科研一線的親身體驗和近距離觀察,一起來感受和了解創(chuàng)新成果的孕育過程。

——編  者  

 

機器人拿起咖啡杯、穿針引線,甚至彈奏鋼琴,都屬于具身操作,背后有一套軟硬件系統(tǒng)支撐。作為具身智能的關鍵技術之一,具身大腦的目標是讓機器人“心靈手巧”,從而與外界實現(xiàn)互動。

如今,這項賦予機器人“靈動感”的技術,正進入關鍵突破與激烈競逐階段。北京海淀東升科技園里,北京中科慧靈機器人技術有限公司(以下簡稱“靈寶機器人”)的“極客”們正在這一新賽道上奮力奔跑、不斷突破。

讓機器人通過“模仿學習”掌握技能

靈寶機器人的研發(fā)現(xiàn)場既像不太“規(guī)范”的實驗室,也像不那么“標準化”的生產(chǎn)車間。頂棚上的軌道縱橫交錯,各種操作臺遍布其中。記者行走其間,經(jīng)常要側身、抬腳,設備多到容納不下一條固定的步行“動線”。

靈寶機器人成立于2023年,由中國科學院自動化研究所研究員張正濤創(chuàng)辦,專注研發(fā)面向場景落地的通用人形機器人和具身智能產(chǎn)品。具身操作是靈寶機器人的技術專長之一,他們研發(fā)的具身智能機器人可以用0.3毫米的螺絲刀完成筆記本電腦主板裝配,精度甚至能達到頭發(fā)絲的1/5。

像人類的雙手一樣,具身操作需要兼具感知和操作能力。視覺語言動作模型(VLA)是實現(xiàn)這兩項能力的重要途徑——通過融合視覺感知、語言理解與動作控制來打造“端到端”決策系統(tǒng),并開展“泛化學習”,就像一個動作版的大語言模型。

在研發(fā)現(xiàn)場,記者看到,靈寶機器人具身算法工程師王思成正在使用視覺語言動作模型和一臺末端執(zhí)行器為二指夾爪的機器人,來模擬訓練抓取動作。

抓取是人手最基本的動作之一。操作臺上放著一個盤子,里面盛放的是網(wǎng)球、香蕉和獼猴桃。“抓取網(wǎng)球。”王思成先在電腦里敲上幾行代碼,再起身來到機器人前念出一段語音指令。

看似有些笨拙的訓練過程,卻有極高的技術目標。“傳統(tǒng)的機器人抓取,要先檢測目標,再算出空間坐標,最后完成動作,操作流程是相對固定的。”王思成解釋,“而我們知道,人類在抓取物體的時候可不是這樣操作的,我們既不會‘檢測’,也不會計算空間坐標,而是利用直覺和反饋產(chǎn)生動作,我們正是要讓機器人具備這樣的能力。”

不需要設置固定的算法流程,只需輸入視覺圖像,讓機器人學習視覺圖像中哪些要素跟操作相關。簡單演示幾遍,它就可以模仿、學習人類的抓取動作。“我們讓機器人通過‘模仿學習’掌握技能。”王思成說。

目前,算法還沒那么先進,還需要收集大量數(shù)據(jù)才能讓機器人熟練地抓取。“肯定比人要笨一些,難點就在于怎樣用盡可能少的數(shù)據(jù),讓它學會更多技能。”王思成說,“拿抓取來說,使用一般的開源模型要采集三四十條數(shù)據(jù)才能學會,我們不斷改進算法,現(xiàn)在5到10條數(shù)據(jù)就能學會了。”

同樣是抓取,對人類來說,抓不同物體,動作、力度也會有細微差別。在王思成他們的努力下,這種細微差別也能在機器人的二指夾爪上實現(xiàn)。“這是自適應力控夾爪,遇到軟的物體,它的力度也會做相應調整。也就是說抓網(wǎng)球和獼猴桃,它的力度也是略有不同的。”王思成說。

這項開發(fā)工作已進行了近1年。“我們已有相關論文成果發(fā)表。”更讓王思成有成就感的是,系統(tǒng)還在“跑分”平臺上名列前茅,部分性能指標已經(jīng)達到業(yè)內領先水平。

實現(xiàn)動態(tài)場景下的抓、拿、放

一只鞋被重復放置在傳送帶上,機器人將它抓起,然后放置在專門壓鞋的機器上。靈寶機器人模仿學習算法工程師孫建涌用一個3D鼠標,操作機器人進行抓取訓練,“這是制鞋場景下的一個標準動作,現(xiàn)在它已經(jīng)能抓取了,但是抓得還沒有那么緊、那么好。”

自動化設備在國內制造業(yè)已不鮮見,但在制鞋領域還不多。靈寶機器人商業(yè)化中心負責人張淼解釋:“我們做過調研,一條制鞋自動化生產(chǎn)線需要上千萬元投資,只適合生產(chǎn)一些銷量較大的‘爆款鞋’。由于柔性化程度不夠,生產(chǎn)線在不同鞋款間‘切換’的成本很高,這成為提升自動化率的一大障礙。”

孫建涌訓練的機器人,要適應的正是柔性化的制鞋流程。他告訴記者:“鞋分左右腳,鞋碼在35碼到45碼之間,要在動態(tài)場景下完成抓、拿、放,這些都是通過真機在線強化學習實現(xiàn)的。”

按照過去的思路,這套動作需要現(xiàn)場采集數(shù)據(jù)、再設計一套指令。現(xiàn)在用視覺數(shù)據(jù)和真機在線強化學習,普通工人用3D鼠標就可以“手把手”教機器人操作,“有點像‘抓娃娃’,系統(tǒng)慢慢學會后,稍微糾個錯就行,能夠在不同款式間快速‘切換’,也極大降低了訓練使用的門檻。”孫建涌解釋。

現(xiàn)在,訓練這樣的機器人來抓取一款鞋,只需1小時左右。“如果沒抓到或者抓偏了,機器人還能自動調整。這是強化學習相比于模仿學習的一大優(yōu)點。”孫建涌說,模仿學習往往是基于“成功經(jīng)驗”,強化學習除了依賴“投喂”的成功經(jīng)驗,還能自己探索并覆蓋各種情況。

3個月來,孫建涌所在的團隊常在實驗室和工廠兩頭跑。“很多問題都要在生產(chǎn)一線解決,比如有的傳送帶比較光滑,反光就會影響視覺判斷。”孫建涌舉例,其他如傳送帶速度、相機視野里鞋的密集度等,都需要在算法層面一點點改進。

更加柔性化以兼容更多應用場景

研發(fā)現(xiàn)場,占據(jù)“C位”的是一臺人形機器人,身上還掛著不少線纜。作為實驗機型,很多“極限測試”都在它身上開展。同時,它也是今年北京人形機器人半程馬拉松賽上少數(shù)沒有摔倒的參賽選手之一。

在前期研發(fā)的基礎上,靈寶機器人團隊很多成果已經(jīng)用在了人形機器人上。去年11月,公司發(fā)布的首款全尺寸雙足人形機器人靈寶CASBOT 01,就搭載了結合具身智能、柔順力控和精密操作等技術的五指仿生靈巧手,能執(zhí)行雙指旋擰、指間夾取等操作任務。

張淼介紹,作為執(zhí)行操作任務的關鍵部件,五指仿生靈巧手單手重量800克、額定負載達5公斤,集成了觸覺、力覺和視覺的多源感知系統(tǒng)。通過優(yōu)化控制算法和動作規(guī)劃,該靈巧手能夠模擬人手的靈活性,可有效解決精細化作業(yè)場景中的“靈巧”與“作業(yè)”兩大難題。

“操作是具身智能的核心能力,對于產(chǎn)業(yè)發(fā)展具有重要意義。”在靈寶機器人具身操作中心負責人周明才看來,目前具身智能已經(jīng)實現(xiàn)了“形似”,但如何使其像人類那樣去感知和操作,仍是一個逐步發(fā)展的過程。特別是隨著個性化需求增多,讓具身智能更加柔性化,以兼容更多應用場景,是研發(fā)的一個重要目標。

“近年來,國內具身智能發(fā)展很快,特別是產(chǎn)業(yè)鏈不斷完善。像常見的觸覺傳感器,有壓阻式的、電容式的,一些新的器件也逐步加入進來,可以說處在一個‘百花齊放’的狀態(tài)。哪種技術路線最優(yōu)?我想這也是一個逐步‘收斂’的過程。但正是有了這些基礎,我們做算法開發(fā)才能更加得心應手。”周明才說。

靈寶機器人對產(chǎn)學研融合有著深刻的理解。周明才說:“我們會把一些最新的研究成果應用到產(chǎn)品中去。同時,我們的最新產(chǎn)品也會提供給學術界做前沿研究,這是個緊密互動、螺旋式上升的過程。”

本報記者 谷業(yè)凱

《人民日報》(2025年07月28日 第 19 版)

[責任編輯:鐘超]