編者按:該路線圖由來自美國多所高校的150余名研究人員共同起草完成。第一版機器人路線圖發布于2009年,并促成了美國“國家機器人計劃”的出臺。新版本的路線圖更新了對各種類型機器人領域涉及關鍵技術的發展路線預測,指出了目前這些領域的技術現狀、存在的主要問題,以及未來5~15年的發展目標。路線圖還根據機器人領域最近期的發展態勢,以及社會經濟的發展需求,呼吁為自動駕駛汽車、無人機等新興技術建設更好的政策框架,推動技術的商業化、實用化。本期專題對路線圖關注的主要領域的未來發展做了介紹。
五、學習與適應
讓機器人順利地完成任務需要滿足一些特定條件,例如指導其行動的動力學模型、使其感知物體的傳感模型、清晰的既定目標,以及小范圍或結構化的問題域,使其計劃和感知算法能夠形成解決方案。但在許多應用中,這些條件并不是總能夠被滿足,如手術機器人無法對其需要接觸的人體組織間的相互作用進行建模;服務機器人無法適應環境的不確定性;家政機器人打掃房間的方式無法滿足主人的需要;工業機器人無法在新產品推出使適應新的任務等等。因此需要機器學習來適應這些情況,使機器人能夠從自己的經驗中學習,甚至向人類學習。
5.1 從示范中學習
從示范中學習:讓機器人從示范中進行學習,相比重新編程而言,能夠讓終端用戶更有能力教機器人如何行動。通過這種途徑,能夠以物理方式指導機器人使其重復動作并適應環境。這一領域的挑戰包括分析任務結構(識別任務的目的和子目標),處理運動學以外的問題(學習機器人需要掌握的力學信息),并能夠通過直接觀察人來學習。人們需要展開更多研究,使機器人學習示范動作的算法更容易被非專業人士所掌握。此外,機器人學習和適應人們在處理任務時的偏好也很重要,雖然這一點并不一定會影響到能否成功完成任務,但對于某些情況,特別是合作型機器人和服務型機器人,適應終端用戶的想法是獲得接納的重要因素。
5.2 強化學習與深度學習
近年來,采取直接從經驗中學習的策略被證明是很成功的一條研究路徑。深度學習的策略取得了非常令人震驚的成果,如機器人AI能夠以人類水平玩電玩游戲Atari、Alpha Go戰勝李世石等。此外其他領域諸如計算機視覺、語音識別、自然語言處理等都從深度學習中獲益匪淺。
但是,真實的物理世界的結構化程度相比游戲或圍棋要低得多,并且物理世界包含了連續的、高維度的狀態與行為空間。而且在物理世界需要做出實際的物理行為來獲取數據,而不僅限于模擬計算。因此,要想借助機器學習來幫助真實的物理機器人完成復雜任務,還存在許多研究方面的挑戰,其中包括:對學習系統不確定性的良好評估;向新的任務領域的推廣;在數據稀少而昂貴的領域進行學習;將基于模型的推理和深度學習二者相結合等。
六、運動控制與規劃
未來的機器人將需要更高級的運動控制和規劃算法,用來處理具有更大不確定性、更高容錯率,以及具有更高自由度的單智能體(single agent)和多智能體(multi agents)系統,并且能夠在各種設定下安全、可靠地完成工作。移動機械臂的末端執行器需要能夠在非結構化和受限環境中有效地規劃和執行精細操縱和抓取任務。有些機器人可能有12個自由度,一些擬人類人型機器人可能有多達60個自由度用于控制和協調。而另一種極端情況是多agent機器人和群體機器人,他們需要協調幾個甚至幾千個agent。
未來的機器人技術需要同時考慮解決控制和規劃兩方面的問題,而不再將其單獨考慮。未來的運動規劃方法需要使用更新的技術,包括數學拓撲、基于樣本的規劃方法等等,以有效應對未來機器人所處的高維度環境和交互空間。
6.1 不確定情況下的任務和運動規劃
由于缺少精確的傳感器,為了使機器人在不確定環境下安全穩定地運作,必須對算法進行設計。近年來在這方面的進展還只能夠讓機器人在非常結構化的環境下執行簡單的任務。未來需要開展更多的研究,開發能夠處理非結構化環境中的實際問題的信念空間規劃算法(algorithms for planning in beliefspace)。這些方法必須能夠在與人類密切接觸和合作的情況下實現實時運行。它們還需要在提供安全性和魯棒性保證的同時,適應那些不完整、不準確和間歇性的傳感器數據。最后,需要將包含不確定性的任務和運動規劃進行原則性整合,使機器人的自主化水平達到在非結構化環境下能夠成為人類有用伙伴的水平。
6.2 從規范到部署
控制設計在很大程度上依賴于理想化的物理模型。為了顯著加快設計周期,需要工具能夠自動化地以合適的方式彌補理論與實踐之間的差距,這些工具包括:形式化方法、混合計算模型,以及能夠實時適應環境變化的控制協議等。
6.3 在約束環境中的控制與規劃
對機器人控制規劃的約束呈現為許多不同的形式,包括機器人力所能及的物理限制、工作地點中的障礙物、能源約束,或者各種限制機器人致動的動態約束等。目前已經有部分約束優化方法被應用在靜態環境、短時間任務或小運動量的情景之中,但在外科手術、服務行業,或者長持續時間、環境動態的制造應用中,相關研究較少。對機器人進行約束優化的下一步工作,是將約束任務有效地融入連續運動的規劃算法中,使其能夠對動態約束進行預測和響應,并在長時間段內保持穩定。
6.4 操控
在物理世界中,操控和抓握是機器人的基本工作能力。當前的算法只能夠在相對簡單的環境下勝任,比如針對小型的常規的幾何形狀,進行準靜態動作等。未來的研究需要針對復雜和獨特的幾何形狀,研究開發機器抓握相關規劃和度量技術。需要進一步改進用于接觸任務的有關技術,這些技術主要用于操縱可變形物體、非抓取動作和工具,以及用于動態運動。為實現安全操作,還需要制定魯棒性和故障檢測與恢復相關的策略。
6.5 動態環境
動態環境下的操縱任務,往往需要機器人面對敏感的環境、與人類或其他機器人互動、移動障礙物等,而這些行為需要機器人對其潛在行為缺少明確知識的情況下做出。目前,人們只在小規模動態環境建模方面取得了一些進展,機器人在低維度環境下能夠做出比較有效的長期計劃。未來,機器人在面對動態環境時的一個技術挑戰是,需要解決可擴展性問題和不確定性問題,其中可擴展性指需要處理多個、異質的動態對象和agent,不確定性指復雜或不可預測的動態情況,這些問題需要機器人系統實時地進行重新規劃和適應。
6.6 多agent協調
多agent協調通常出現在制造業和倉儲管理、網絡機器人部署、災難監控、建筑機器人等應用中。多數的多agent協調方式來源于自然界啟發,通常分為中央智能協調方式,以及去中心化智能協調方式兩種,這兩種方式各有優劣。未來在多agent協調方面的研究方向主要包括:能夠同時發揮中央智能和局部行為兩種協調方式優勢的實時協調方法;可向某些最佳行為收斂的形式方法;以及異質agent在與其鄰近機器人執行復雜任務序列時的規劃。
七、人機交互
7.1 接口設計
機器人界面仍然處于開發初期,需要開展廣泛研究來開發可直接應用于人-機器人界面的原理和指南。
7.2 感知、建模和適應人類
需要廣泛研究開發針對人類生理學和行為的感測與感知技術,以及在特定任務、應用和領域背景下對所感知的內容進行解釋的模型。機器人需能夠識別和理解它們所感知的東西,還能夠估測用戶意圖,以便主動規劃出自身行為。此外,為了使機器人能夠適應用戶的行為變化以及不同用戶的需求,需要開發自適應動作模型,以及實現可定制化。
7.3 社交性
為了使機器人能夠理解人類社會行為,展開社交行為并遵循社交規范,必須使機器人能夠理解復雜對話、解釋和產生豐富的非語言線索,理解和表達情感。實現這些需要研究開發非常詳細的面向語言和非語言交互行為的識別、綜合語對話模型,還需要創建模型來幫助機器人適應不斷變化的語境規范。
7.4 協作系統
開發方法和模型,使機器人能夠感知和解釋變化的任務環境及其人類伙伴,還需要自適應地規劃其在任務中的作用。
7.5 機器人媒介通信
機器人作為一種交流的通信媒介,需要解決的問題是如何更好地將媒介機器人系統更好地集成到所處的環境當中,為通信雙方用戶提供更加自然的接口,并解決隱私、安全、公平等問題。此外,自主性和良好的用戶界面設計也是重要的研究問題。
7.6 共享自主
研究開發新的方法,使機器人能夠利用來自用戶的廣泛的控制信號,包括來自腦-機接口的輸入信號。此外,還需要推動復雜場景下不同級別的共享控制技術。
7.7 長期交互
為使機器人能夠了解并適應不斷變化的用戶需求、行為模式和能力,機器人需要維持長期交互,不斷學習新任務、新的用戶模型和交互策略,并將其所學轉移到新的替代產品中,這方面的相關研究極少,因此需要開展廣泛研發,并進行縱向現場測試。
7.8 安全性
開展廣泛研究,以制定機器人必須遵循的規范設計指南。
八、agent機器人
8.1 分布式控制和決策
開發分布式決策算法,利用單體agent的有限信息,從局部規則的集合中產生所需的全局行為。開發有效的算法框架,將高層級的多agent機器人群體行動規范與低層級的分布式控制算法納入其中。
8.2 集中/分散混合式信息交換機制
建立有效的抽象化或系統化算法,用于描述或利用集中/分散二者混合的信息交換機制。其次,了解哪些信息需要以集中的方式進行共享,哪些信息可在本地存儲。
8.3 人-群體機器人交互
人機交互已經較為成熟,但人類操作員如何與群體機器人交互的問題在很大程度上仍然沒有得到解決。從認知工作負載到帶寬管理角度來看,尚無法構建出有效的交互模型。
8.4 異構網絡
人們還無法完全理解如何很好地去利用異構群體機器人。對于特定任務,需要何種類型的機器人?如何表征機器人群體的異構程度?為了在任務中實現最大的靈活性,一個機器人群體應該達到怎樣的異構程度?目前這些都存在問題。
8.5 多機器人系統中的通信和感測
從根本上理解機器人網絡系統中感測、通信、導航模塊之間的相互作用。