虛擬環(huán)境下的汽車自主駕駛策略的研究與實現(xiàn)
發(fā)布時間:2021-03-06 17:47
隨著5G時代的來臨和人工智能研究的發(fā)展,自動駕駛成為當下學術界、工業(yè)界和商業(yè)界備受關注的焦點。傳統(tǒng)的駕駛策略模型,是通過人工來進行數(shù)學建模,對于復雜的交通環(huán)境,不能很好的處理,無法滿足自適應的駕駛策略的需要,而讓汽車具備自主學習能力是研究的重中之重。自動駕駛汽車基于特定試驗場所和特定路段測試進行自適應訓練不現(xiàn)實,耗資巨大且測試效率不高。為了解決傳統(tǒng)駕駛策略高度依賴模型和當前實地測試的局限性和問題,構建一個安全且高效,學習和測試一體的自動駕駛汽車測試平臺是必不可少的。針對上述問題,本論文所作的工作:第一,基于TORCS,搭建了虛擬環(huán)境下的汽車自主駕駛的仿真系統(tǒng)。對TORCS軟件進行適當?shù)母倪M,在ubuntu16.04系統(tǒng)平臺中,基于Gym環(huán)境,使用python語言對TORCS封裝。實現(xiàn)了在前端的虛擬汽車智能地行駛于TORCS虛擬環(huán)境中。第二,使用深度強化學習算法學習來代替?zhèn)鹘y(tǒng)駕駛策略模型方法,從而能夠學習到自主駕駛策略。本論文使用雙智能體的DDPG的駕駛策略的算法,不需要車輛動力學模型,只需通過與環(huán)境交互進行學習,在復雜環(huán)境中更具魯棒性。在仿真系統(tǒng)中,對比深度Q-學習,顯示了本文所用的方...
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
近幾年交通安全事故數(shù)量對比
相當之驚人。仿佛意味著誰能更快地更熟練的將自動駕駛技術運用到真實環(huán)境中,他就成為未來汽車行業(yè)中的佼佼者,讓自己的國家成為汽車工業(yè)強國,提高其在自動駕駛汽車領域的地位,搶占市場份額。美國一直處于自動駕駛技術的領先者的地位,自谷歌公司啟動自動駕駛汽車計劃以來,各個大型車企絡繹不絕地加入自動駕駛技術的研究和開發(fā)中,2016年8月,福特汽車公布了將在2021年推出L5級的自動駕駛汽車并投入商業(yè)運作。早在2015年,谷歌推出的第三代無人駕駛汽車已經(jīng)達到L4級,并且獲得測試許可并且啟動了路測。如下圖1-2所示:圖1-2google汽車圖在自動駕駛汽車的發(fā)展戰(zhàn)略上,汽車制造商企業(yè)主張的是逐步推進的戰(zhàn)略,不是直接研究自動駕駛汽車。奧迪更是繼谷歌之后在美國取得自動駕駛汽車車輛道路測試許可證。2019年1月8號,美國拉斯維加斯首次開展了CES,即國際消費類電子產品展覽會,CES的開展全球都非常重視,其展示了很多先進的科技產品,同時其也針對當前汽車領域的發(fā)展,提出了未來可能會出現(xiàn)的駕駛技術,受到了廣泛關注。未來CES的展示中,自動駕駛技術的出現(xiàn)可能會成為整個展覽會最受矚目的部分,也會成為人們最感興趣的技術。
第2章相關理論基礎介紹8第2章相關理論基礎介紹在過去的研究實驗中,機器學習包含強化學習、有監(jiān)督學習、無監(jiān)督學習[15]三種。當前各領域中運用較為普遍的學習方式為強化學習。前些年,三類學習算法分工明確,而目前,三類學習算法聯(lián)合起來使用效果更佳。而強化學習算法結合的更加好,例如深度強化學習的對話生成。在本論文中,如圖2-1所示,強化學習也是要與深度學習相結合,成為本論文的主要依據(jù)理論。圖2-1機器學習分類無監(jiān)督學習是沒有具體而充分數(shù)據(jù)集的,沒有模型數(shù)據(jù),大多數(shù)問題的結果都是未知的。數(shù)據(jù)沒有被標記,學習模型是通過輸入和期望輸出不斷進行學習調整。本質就是將相似的數(shù)據(jù)類型會聚集到一起,把沒有標記的數(shù)據(jù)分成多個組合。有監(jiān)督學習是有具體標記的數(shù)據(jù)集的,通過外部監(jiān)督獲取該模型的有關參數(shù),但參數(shù)獲取過程并不包含于算法內。根據(jù)相應的目標函數(shù)進行學習,從而不斷減小結果與期望輸出的目標函數(shù)的差異,這種學習方式為有監(jiān)督學習。而強化學習需要的是智能體與環(huán)境交互的數(shù)據(jù),模型數(shù)據(jù)要不斷與環(huán)境交互[16],在交互過程中不斷改進學習行為,產生更好的行為,獲得更多的獎勵。相對于有監(jiān)督學習,強化學習在構建算法的同時需要構建一個與智能體交互的環(huán)境。而相對于無監(jiān)督學習,強化學習的過程并不是開放式的,且需結合實際提出相應的獎懲制度。強化學習要解決的問題是從環(huán)境狀態(tài)到智能體的行為決策問題,輸入具體是什么樣子,對于智能體來說,并沒有多大價值。智能體的學習是如同人類學習理論:智能體在初始時并不知道在當前狀態(tài)下,采取哪個動作是最可能接近目標的,只有智能體與環(huán)境進行交互,不斷嘗試探索,不斷摸索,通過環(huán)境返回給智能體
【參考文獻】:
期刊論文
[1]智能時代的汽車控制[J]. 陳虹,郭露露,宮洵,高炳釗,張琳. 自動化學報. 2020(07)
[2]自動駕駛仿真技術研究現(xiàn)狀[J]. 張微,李鑫慧,吳學易,唐風敏,郭蓬,何佳. 汽車電器. 2019(08)
[3]國內外智能網(wǎng)聯(lián)汽車產業(yè)發(fā)展概況[J]. 科技中國. 2019(02)
[4]人工智能背景下自動駕駛汽車的挑戰(zhàn)與展望[J]. 胡海波. 中國高新區(qū). 2018(10)
[5]基于深度學習的自動駕駛技術綜述[J]. 張新鈺,高洪波,趙建輝,周沫. 清華大學學報(自然科學版). 2018(04)
[6]基于重抽樣優(yōu)選緩存經(jīng)驗回放機制的深度強化學習方法[J]. 陳希亮,曹雷,李晨溪,徐志雄,何明. 控制與決策. 2018(04)
[7]互學習神經(jīng)網(wǎng)絡訓練方法研究[J]. 劉威,劉尚,白潤才,周璇,周定寧. 計算機學報. 2017(06)
[8]平行學習—機器學習的一個新型理論框架[J]. 李力,林懿倫,曹東璞,鄭南寧,王飛躍. 自動化學報. 2017(01)
博士論文
[1]城區(qū)動態(tài)環(huán)境下智能車輛行為決策研究[D]. 宋威龍.北京理工大學 2016
碩士論文
[1]基于集成的多深度確定性策略梯度的無人駕駛策略研究[D]. 吳俊塔.中國科學院大學(中國科學院深圳先進技術研究院) 2019
[2]基于虛擬仿真環(huán)境的自動駕駛策略學習[D]. 栗韶遠.浙江大學 2019
[3]基于深度強化學習的虛擬無人車控制研究[D]. 顧文逸.南京理工大學 2018
[4]基于深度強化學習的自動駕駛決策仿真[D]. 夏偉.中國科學院大學(中國科學院深圳先進技術研究院) 2017
本文編號:3067530
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
近幾年交通安全事故數(shù)量對比
相當之驚人。仿佛意味著誰能更快地更熟練的將自動駕駛技術運用到真實環(huán)境中,他就成為未來汽車行業(yè)中的佼佼者,讓自己的國家成為汽車工業(yè)強國,提高其在自動駕駛汽車領域的地位,搶占市場份額。美國一直處于自動駕駛技術的領先者的地位,自谷歌公司啟動自動駕駛汽車計劃以來,各個大型車企絡繹不絕地加入自動駕駛技術的研究和開發(fā)中,2016年8月,福特汽車公布了將在2021年推出L5級的自動駕駛汽車并投入商業(yè)運作。早在2015年,谷歌推出的第三代無人駕駛汽車已經(jīng)達到L4級,并且獲得測試許可并且啟動了路測。如下圖1-2所示:圖1-2google汽車圖在自動駕駛汽車的發(fā)展戰(zhàn)略上,汽車制造商企業(yè)主張的是逐步推進的戰(zhàn)略,不是直接研究自動駕駛汽車。奧迪更是繼谷歌之后在美國取得自動駕駛汽車車輛道路測試許可證。2019年1月8號,美國拉斯維加斯首次開展了CES,即國際消費類電子產品展覽會,CES的開展全球都非常重視,其展示了很多先進的科技產品,同時其也針對當前汽車領域的發(fā)展,提出了未來可能會出現(xiàn)的駕駛技術,受到了廣泛關注。未來CES的展示中,自動駕駛技術的出現(xiàn)可能會成為整個展覽會最受矚目的部分,也會成為人們最感興趣的技術。
第2章相關理論基礎介紹8第2章相關理論基礎介紹在過去的研究實驗中,機器學習包含強化學習、有監(jiān)督學習、無監(jiān)督學習[15]三種。當前各領域中運用較為普遍的學習方式為強化學習。前些年,三類學習算法分工明確,而目前,三類學習算法聯(lián)合起來使用效果更佳。而強化學習算法結合的更加好,例如深度強化學習的對話生成。在本論文中,如圖2-1所示,強化學習也是要與深度學習相結合,成為本論文的主要依據(jù)理論。圖2-1機器學習分類無監(jiān)督學習是沒有具體而充分數(shù)據(jù)集的,沒有模型數(shù)據(jù),大多數(shù)問題的結果都是未知的。數(shù)據(jù)沒有被標記,學習模型是通過輸入和期望輸出不斷進行學習調整。本質就是將相似的數(shù)據(jù)類型會聚集到一起,把沒有標記的數(shù)據(jù)分成多個組合。有監(jiān)督學習是有具體標記的數(shù)據(jù)集的,通過外部監(jiān)督獲取該模型的有關參數(shù),但參數(shù)獲取過程并不包含于算法內。根據(jù)相應的目標函數(shù)進行學習,從而不斷減小結果與期望輸出的目標函數(shù)的差異,這種學習方式為有監(jiān)督學習。而強化學習需要的是智能體與環(huán)境交互的數(shù)據(jù),模型數(shù)據(jù)要不斷與環(huán)境交互[16],在交互過程中不斷改進學習行為,產生更好的行為,獲得更多的獎勵。相對于有監(jiān)督學習,強化學習在構建算法的同時需要構建一個與智能體交互的環(huán)境。而相對于無監(jiān)督學習,強化學習的過程并不是開放式的,且需結合實際提出相應的獎懲制度。強化學習要解決的問題是從環(huán)境狀態(tài)到智能體的行為決策問題,輸入具體是什么樣子,對于智能體來說,并沒有多大價值。智能體的學習是如同人類學習理論:智能體在初始時并不知道在當前狀態(tài)下,采取哪個動作是最可能接近目標的,只有智能體與環(huán)境進行交互,不斷嘗試探索,不斷摸索,通過環(huán)境返回給智能體
【參考文獻】:
期刊論文
[1]智能時代的汽車控制[J]. 陳虹,郭露露,宮洵,高炳釗,張琳. 自動化學報. 2020(07)
[2]自動駕駛仿真技術研究現(xiàn)狀[J]. 張微,李鑫慧,吳學易,唐風敏,郭蓬,何佳. 汽車電器. 2019(08)
[3]國內外智能網(wǎng)聯(lián)汽車產業(yè)發(fā)展概況[J]. 科技中國. 2019(02)
[4]人工智能背景下自動駕駛汽車的挑戰(zhàn)與展望[J]. 胡海波. 中國高新區(qū). 2018(10)
[5]基于深度學習的自動駕駛技術綜述[J]. 張新鈺,高洪波,趙建輝,周沫. 清華大學學報(自然科學版). 2018(04)
[6]基于重抽樣優(yōu)選緩存經(jīng)驗回放機制的深度強化學習方法[J]. 陳希亮,曹雷,李晨溪,徐志雄,何明. 控制與決策. 2018(04)
[7]互學習神經(jīng)網(wǎng)絡訓練方法研究[J]. 劉威,劉尚,白潤才,周璇,周定寧. 計算機學報. 2017(06)
[8]平行學習—機器學習的一個新型理論框架[J]. 李力,林懿倫,曹東璞,鄭南寧,王飛躍. 自動化學報. 2017(01)
博士論文
[1]城區(qū)動態(tài)環(huán)境下智能車輛行為決策研究[D]. 宋威龍.北京理工大學 2016
碩士論文
[1]基于集成的多深度確定性策略梯度的無人駕駛策略研究[D]. 吳俊塔.中國科學院大學(中國科學院深圳先進技術研究院) 2019
[2]基于虛擬仿真環(huán)境的自動駕駛策略學習[D]. 栗韶遠.浙江大學 2019
[3]基于深度強化學習的虛擬無人車控制研究[D]. 顧文逸.南京理工大學 2018
[4]基于深度強化學習的自動駕駛決策仿真[D]. 夏偉.中國科學院大學(中國科學院深圳先進技術研究院) 2017
本文編號:3067530
本文鏈接:http://sikaile.net/kejilunwen/qiche/3067530.html
最近更新
教材專著