當前位置:首頁 > 新聞中心 > 科研動態

科研動態

飛行器智能技術團隊提出知識和數據融合驅動的隊形保持與協同避碰算法

  • 发表日期:2020-08-20 【 【打印】【關閉】
  •   1.什麽是隊形保持與協同避碰 

      多機器人編隊隊形保持與協同避碰任務,是指由多個單體機器人所組成的機器人編隊,在作用空間下既要最大可能地保持所要求的隊形,又要避免與環境障礙物及其他機器人發生碰撞,並最終到達目的地。該項任務對單體機器人的感知與控制能力和多機器人編隊協同能力都有較高的要求,可廣泛應用在諸多場景中,如智能倉儲中的協作搬運、空域與海域的聯合偵查探測等等。 

      經典的多機器人編隊隊形保持與協同避碰算法通常可以分爲基于模式切換及引入勢場力的方法。這些方法難以處理複雜動態任務,且存在目標不可達、行爲輸出局部震蕩等弊端。近幾年發展出的端到端學習方法(如多智能體強化學習方法)爲該類問題的解決帶來了新思路,但現有工作主要聚焦于避碰問題,在多機器人編隊隊形保持與協同避碰的融合問題中研究較少。 

      2.知識和數據融合驅動的隊形保持與協同避碰算法 

      中科院自動化所飛行器智能技術團隊一直致力于無人自主系統的群體智能研究,近階段將知識和數據協同驅動的群體智能實時推理與決策作爲突破重點,融合規則知識、已有算法和模型等知識驅動方法以及深度強化學習、演化計算等數據驅動方法,實現群體的智能自主進化,並應用于虛實結合的集群驗證系統。團隊在最新的研究中,將機器人協同避碰與編隊控制相結合,提出了一種基于模型知識和數據訓練融合的多機器人編隊隊形保持與協同避碰算法,有效解決上述傳統方法弊端和數學驅動訓練時間長等問題,在性能表現方面取得了大幅提升。 

      1 問題示意 

      該工作以基于深度強化學習的機器人避碰算法爲基礎,將多機器人編隊隊形保持與協同避碰問題建模爲具有複合獎懲的馬爾科夫決策過程。在如何平衡編隊保持與協同避碰問題上,沒有人爲設置限定條件,而是通過智能體與環境的交互,使之通過學習獲得能夠得到長期累計回報最大化的行爲策略。 

      爲了解決環境內障礙物數目不確定的網絡泛化問題,算法對環境內的障礙物信息進行排序使之具備序列特性,而後引入LSTM模型對其進行統一處理,最終得到整體的狀態表征。 

      2 基于LSTM的不確定數目障礙物狀態表征 

      在模型知識與數據訓練融合框架中,首先采用基于智能體運動學模型的知識驅動方法獲取有效示例數據,基于該示例樣本,反向計算環境狀態與價值對,然後對其進行行爲克隆。最終,在得到具有初始策略的網絡後,將其參數賦予強化學習中的價值網絡,並繼續下一階段的強化學習訓練。

      3 算法總體框架 

      與傳統的模仿學習-強化學習訓練框架不同,該工作的模仿學習示例樣本是采用基于智能體物理模型,且具有收斂性、最優性等理論保證的知識驅動方法生成的。其中,編隊控制采用一致性理論設計分布式控制律,避碰策略則采用最優互補避碰(ORCA)算法來修正一致性編隊控制器給出的智能體速度控制量。 

      4 知識驅動部分架構 

      3.對比與實測 

      團隊針對不同數目障礙物與不同目標隊形,分別在四個場景下進行了仿真測試與驗證。在驗證基于知識驅動的模仿學習效果驗證中可以看出,引入對模型驅動的編隊控制與最優避碰方法的模仿學習後,多機器人編隊無論是收斂速度還是最終結果,都取得了明顯的提升。 

      5 仿真曲線 

      在此基礎上,團隊在每個場景分別進行了500組隨機測試,並就其關鍵指標進行對比,發現知識和數據融合驅動的方法(FCCADRL)按編隊隊形無碰撞到達目的地成功率更高,並可在實際訓練中極大縮減學習時間。 

      1 算法對比效果

      注:APF-F爲引入勢場力的方法,ORCA爲最優互補避碰策略,ORCA-F爲單純采用本文所提出的示教學習的知識驅動方法,FCCADRL爲本文知識和數據融合驅動的方法。 

      同時,團隊在仿真基礎上,搭建了一套基于UWB定位的室內多無人車集群系統,並在該系統中對所設計算法進行了實驗驗證。通过对照各场景下的轨迹圖可以发现,无人车在柔性横队与纵队编队场景中均能成功完成任务,在保证运行安全的条件下尽可能地保持了编队队形,能够根据未知数目障碍物的未知运动主动调整动作,并最终到达目的地,验证了所设计算法的有效性。 

      6 試驗平台結構組成 

      7 實物驗證

      4.總結 

      該研究在基于深度強化學習的避碰方法基礎上,針對多機器人編隊隊形保持與協同避碰問題,提出了一種基于模型知識和數據訓練融合的隊形保持與協同避碰算法。針對無模型強化學習訓練效率低、高度依賴數據,而實際機器人系統中往往存在一定的模型、經驗知識可供利用的情況,通過對基于模型知識控制律的模仿學習,提升了深度強化學習的訓練效率。該研究在仿真環境和實際環境對算法進行驗證,相比于傳統方法,取得了極大的性能提升。該方法有望解決實際物理集群系統面臨的訓練數據有限、存在物理及安全約束等條件下的高效學習問題,在倉儲物流、無人碼頭配送等領域具有極大應用前景。 

     

    [video:知識和數據融合驅動的多機器人隊形保持與協同避碰算法]
     

      論文:Zezhi Sui, Zhiqiang Pu*, Jianqiang Yi, and Shiguang Wu. Formation control with collision avoidance through deep reinforcement learning using model-guided demonstration. IEEE Transactions on Neural Networks and Learning Systems. 2020. 

     

    热门关键词:乐彩网安卓版| 乐彩网app| 乐彩网网站| 乐彩网ios苹果版| 乐彩网手机版| 乐彩网下载地址| 乐彩网论坛| 乐彩网安装| 乐彩网购彩大厅| 乐彩网官网| 乐彩网注册登录| 乐彩网网址| 乐彩网主页| 乐彩网客户端| 乐彩网平台| 乐彩网下载| 乐彩网注册| 乐彩网是正规的吗| 乐彩网登录| 乐彩网|