當前位置:首頁 > 新聞中心 > 科研動態

科研動態

深度強化學習團隊提出基于深度強化學習的未知環境自主探索方法

  • 发表日期:2020-07-28 【 【打印】【關閉】
  •       中科院自动化所深度强化学习团队提出了一种基于深度强化学习的未知环境自主探索算法,能够使机器人在没有先验的环境中自主探索,并实时构建环境地圖。论文发表在2020IEEE TNNLS[1]   

          未知環境探索是指機器人在沒有任何先驗知識的情況下,在一個新的環境中通過移動而建立完整環境地圖的過程,反映了機器人系統的自主決策能力和對環境的適應性,是機器人領域的一個熱點問題。它在實際中有著廣泛的應用場景,如救援機器人的搜索工作和未知環境下清掃機器人的清掃工作。 

      經典的機器人自主探索算法通常是根據已探索環境的邊界特征,基于經驗規則[2]或最優視角方法[3]選擇機器人下一個目標點。規則的選取和最優視角的評估准則在雜亂的環境中會變得非常困難。近幾年發展出的端到端機器人控制[4]和探索[5]方法簡化了決策難度,但是學習效率低和實體遷移困難是這類方法在應用時面臨的主要問題。

      自動化所深度強化學習團隊將深度強化學習方法與經典機器人導航方法結合,提出了一種基于深度強化學習的自主探索算法,重新定義了機器人動作空間,並設計了用于高效決策的網絡結構,以克服端到端學習系統中學習效率低和實體遷移困難的問題。 

      

      

       

      1 自主探索框架 

      该工作以自主探索导航框架为基础,将未知环境探索问题分解为建圖、决策和规划三个模块。对于决策模块,其目的是使建立的地圖与真实的地圖越相近越好,但是在实际中往往无法得到真实的地圖,因此在论文中引入香农熵来衡量建圖质量的好坏。 

      为了提高算法实体迁移性,论文中定义了一种新的动作空间。该动作空间定义在建圖模块得到的栅格地圖,由若干目标点构成。 

      

      2 基于栅格地圖的动作空间 

      考虑到探索过程中的安全性,动作空间的动作被划分为三大类:自由区域目标点、靠近障碍物目标点和未知区域目标点。圖中绿色的点表示安全的动作,其奖励函数可以根据目标函数推导得到

      而紅色離障礙太近容易導致碰撞,淺藍色點的安全狀態位置,這兩種都屬于是危險動作,需要對其進行懲罰 

      为了评估每个目标点的优劣,设计了一种深度網絡,根据当前时刻构建的地圖,当前时刻机器人位置和上一时刻机器人位置,对动作空间中的目标点进行评价。此外,为了及时停止探索,定义终止动作以及对应的奖励函数 

      爲了評估每個目標點的優劣,論文中設計了一種帶有輔助任務的全卷積Q網絡(Fully Convolutional Q-network with an Auxiliary taskAFCQN),可以根据当前时刻构建的地圖,当前时刻机器人位置和上一时刻机器人位置,对动作空间中的目标点进行评价。 

      3 動作評價網絡結構   

      网络结构中包含两个分支,上面的分支(红色阴影区域)是主分支,用于计算动作值函数;下面的分支是辅助任务,通过增加地圖边缘分割监督任务,加速算法训练,增强算法对边缘的感知能力。对于主分支则根据上述构建的奖励函数,采用深度强化学习方法对其进行训练。对于辅助任务,则采用监督学习中的分割方法对其进行训练。

      该方法与基于深度强化学习的端到端方法以及经典机器人自主探索算法进行了对比。圖中DQN爲深度Q網絡,FCQN爲訓練過程中不加輔助任務的全卷積Q網絡,AFCQN爲論文中提出的方法,Frontier爲經典機器人基于邊界的探索方法。AFCQN在不同的测试地圖中均能够保持较高的探索率(构建地圖的面积与真实地圖面积的比值)和探索效率(单位路径长度下的地圖增益)。虽然经典探索方法具有更高的探索率,但提出的方法通过使用更短的探索路径来获取更高的探索效率。 

      

      4 不同方法在测试地圖中结果比较。

    左圖为与端到端学习方法(DQN)的比较,右圖为与经典探索方法(Frontier)的比较。圖中AFCQNFCQN爲文中所提方法。 

      论文中对决策过程进行了可视化分析,从圖中的结果可以看出,算法动作选择与地圖边界相关度非常高。地圖边界是指地圖中自由区域(圖中白色部分)与未知区域(圖中灰色部分)的交界。选择概率比较高的动作大部分情况下分布在地圖的边界。 

      

      5 AFCQN算法決策過程可視化

      所提方法在实际机器人和环境中进行了测试验证,从实际机器人的运动表现可以看出算法具有较好的迁移性能,并且机器人能够以较短的路径构建覆盖大部分环境的地圖。 

       

      6 實際環境中自動探索過程

      论文在自主探索框架的基础上,提出了一种以构建地圖为输入基于深度强化学习的自主探索决策算法,设计了一种用于环境探索的奖励函数和新的动作空间,缓解端到端深度强化算法在实体机器人控制上由于机器人误差导致的迁移性能差问题,并在仿真环境和实际环境对算法进行验证,取得良好的探索效率以及迁移性能。 

        

      參考文獻 

      [1] H. Li, Q. Zhang, and D. Zhao. “ Deep reinforcement learning-based automatic exploration for navigation in unknown environment,” IEEE Transactions on Neural Networks and Learning Systems, vol. 31, no. 6, pp. 2064–2076, 2020.  

      [2] B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146–151. 

      [3] H. H. Gonzalez-Banos and J.-C. Latombe, “Navigation strategies for exploring indoor environments,” The International Journal of Robotics Research, vol. 21, no. 10-11, pp. 829–848, 2002. 

      [4] L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016. 

      [5] S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 2379–2384. 

     

    热门关键词:乐彩网安卓版| 乐彩网app| 乐彩网网站| 乐彩网ios苹果版| 乐彩网手机版| 乐彩网下载地址| 乐彩网论坛| 乐彩网安装| 乐彩网购彩大厅| 乐彩网官网| 乐彩网注册登录| 乐彩网网址| 乐彩网主页| 乐彩网客户端| 乐彩网平台| 乐彩网下载| 乐彩网注册| 乐彩网是正规的吗| 乐彩网登录| 乐彩网|