《廣西師范大學(xué)》2002年碩士論文

發(fā)布時間：2016-07-22 19:09

本文關(guān)鍵詞：機(jī)器自學(xué)習(xí)博弈策略研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

《廣西師范大學(xué)》 2002年

機(jī)器自學(xué)習(xí)博弈策略研究與實現(xiàn)

莫建文

【摘要】： 人工智能是近年來很活躍的研究領(lǐng)域之一。機(jī)器學(xué)習(xí)和博弈是人工智能研究的重要分支。國內(nèi)外對博弈的研究已經(jīng)較為廣泛，特別是IBM的國際象棋程序“深藍(lán)”，已經(jīng)達(dá)到了人類的世界冠軍水平。但是這些程序或者需要經(jīng)過大量訓(xùn)練，或者采用死記硬背的學(xué)習(xí)方法，或者是采用大規(guī)模搜索算法實現(xiàn)，難以避免“組合爆炸”的危機(jī)，因此，一個真正“智能”的，有學(xué)習(xí)能力的高效率的博弈策略還有待進(jìn)一步研究。本文將TD(Temporal Difference)預(yù)測與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合，得到一種用于博弈的強(qiáng)化學(xué)習(xí)法，以博弈中常用的極小極大搜索法和NegeScout搜索法為基礎(chǔ)，并應(yīng)用它實現(xiàn)了一個能自學(xué)習(xí)的五子棋博弈程序。該方法克服了使用靜態(tài)估值函數(shù)的不足，實踐證明，該方法是成功的，使用該方法的程序經(jīng)過較短時間的訓(xùn)練后達(dá)到了較好的下棋水平。本文首先研究了五子棋在計算機(jī)中的表示問題，討論了計算機(jī)中存貯棋局和識別下棋次序，局勢狀態(tài)變化及局勢特征的等方法。其次研究了博弈樹的極小極大搜索技術(shù)及在此基礎(chǔ)上的α－β剪枝過程和剪枝優(yōu)化問題。實現(xiàn)將候選的后繼節(jié)點(diǎn)按位置鄰近順序排序，使剪枝過程得到優(yōu)化。此外還研究了α－β剪枝的改進(jìn)算法NegeScout算法，此算法首先采用一小的有限α－β窗口，以確定實際估計值的范圍，再在這個較小的范圍中搜索實際的估計值。由于在較小的范圍中搜索，效率能得以提高。再次，根據(jù)五子棋的特點(diǎn)，提取棋局局勢的若干特征，對這些特征賦加權(quán)分，并對整個棋局進(jìn)行特征統(tǒng)計，采用一個線性函數(shù)求得棋局的總估計分值。實踐中，采用極小極大搜索加此靜態(tài)估值技術(shù)的初版程序，達(dá)到了比初學(xué)者強(qiáng)的水平，一些比較熟練的業(yè)余人員時常也會負(fù)于此程序。采用固定的估值法，估值的不準(zhǔn)確使其“智力”較低，而且固定的賦值方式使其不能通過學(xué)習(xí)提高。因此我們繼續(xù)研究，利用強(qiáng)化學(xué)習(xí)法(Reiforcement Learning)設(shè)計了第二版本，具有自學(xué)習(xí)功能的五子棋程序。TD即瞬時差異預(yù)測法是指在一個對局中相鄰兩個時刻的局面的形勢判斷差值，如果這個形勢判斷函數(shù)比較準(zhǔn)確，則這個差（即瞬時差異）應(yīng)該接近于0，即用后一局面的估計分值作為前一局面的實際可能估計分值。本文中采用將TD預(yù)測法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合，采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來設(shè)計一非線性估值函數(shù)，將不同棋局特征的數(shù)目加入神經(jīng)網(wǎng)絡(luò)的輸入端，，輸出端輸出對局勢的估計分值。學(xué)習(xí)過程中，按照TD預(yù)測法原理，計算網(wǎng)絡(luò)誤差，利用BP神經(jīng)網(wǎng)絡(luò)誤差傳播法，在對弈過程中，不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值，使其網(wǎng)絡(luò)估值準(zhǔn)確度在學(xué)習(xí)中逐步改善，提高程序的下棋水平。針對BP神經(jīng)網(wǎng)絡(luò)收斂速度慢，本文還采用了網(wǎng)絡(luò)初始化等手段改善網(wǎng)絡(luò)性能。實踐表明，本程序的學(xué)習(xí)功能較強(qiáng)，收斂速度較快，經(jīng)過近1200盤的訓(xùn)練后，程序已經(jīng) WP=4 能擊敗另電腦程序-歡樂五子棋的初級水平，而采用TD強(qiáng)化學(xué)習(xí)法的博弈程序――Tesauro的名叫TD-GAMMON（1995年）的西洋雙陸棋程序經(jīng)過30萬盤與自己的對弈后才取得了與其它同類程序的勝利。

【關(guān)鍵詞】：
【學(xué)位授予單位】：廣西師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2002
【分類號】：TP181
【目錄】：

中文摘要3-7

第一章緒論7-10

第二章問題表示10-13

第三章博弈樹搜索技術(shù)13-23

3．1 極小極大樹搜索算法13-16

3．2 α－β剪枝過程16-19

3．3 α－β剪枝存在的問題及優(yōu)化19-20

3．4 NegeScout搜索20-23

第四章靜態(tài)估值函數(shù)23-27

4．1 棋盤局勢特征23-25

4．2 估值25-26

4．3 初版的實踐結(jié)果及不足26-27

第五章 TD強(qiáng)化學(xué)習(xí)法27-39

5．1 TD預(yù)測27-28

5．2 BP神經(jīng)網(wǎng)絡(luò)28-36

5．3 TD與神經(jīng)網(wǎng)絡(luò)結(jié)合36-39

第六章編程與實踐結(jié)果39-44

6．1 編程39-40

6．2 實踐結(jié)果及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)參數(shù)選擇40-42

6．3 討論42-44

參考文獻(xiàn)44-46

致謝46

下載全文更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文？歡迎：購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 卞凱;;基于強(qiáng)化學(xué)習(xí)的城市交通區(qū)域協(xié)調(diào)控制研究[J];電子技術(shù);2011年08期

2 夏麗麗;;連續(xù)狀態(tài)-連續(xù)行動強(qiáng)化學(xué)習(xí)[J];電腦知識與技術(shù);2011年19期

3 祝宇虹;毛俊鑫;;基于人工情感與Q學(xué)習(xí)的機(jī)器人行為決策[J];機(jī)械與電子;2011年07期

4 劉衛(wèi)紅;周義蓮;;強(qiáng)化學(xué)習(xí)方法在Web服務(wù)組合中的應(yīng)用比較研究[J];計算機(jī)應(yīng)用與軟件;2011年07期

5 黃付亮;張榮國;陳大川;劉焜;;基于聯(lián)合博弈的多Agent學(xué)習(xí)[J];計算機(jī)與數(shù)字工程;2011年06期

6 張文柱;邵麗娜;;異構(gòu)無線網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的頻譜管理算法[J];西安電子科技大學(xué)學(xué)報;2011年04期

7 宋毅;劉政宇;徐秋景;;基于CSocKet的網(wǎng)絡(luò)應(yīng)用五子棋設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2011年16期

8 李昭閣;;強(qiáng)化學(xué)習(xí),更新觀念,發(fā)揮校園網(wǎng)作用[J];學(xué)周刊;2011年12期

9 ;玩游戲得大獎中國移動“第二屆棋牌大賽”火爆進(jìn)行中[J];數(shù)字生活;2011年08期

10 許培;薛偉;;基于Q-learning的一種多Agent系統(tǒng)結(jié)構(gòu)模型[J];計算機(jī)與數(shù)字工程;2011年08期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 文鋒;陳宗海;陳春林;;基于RLS-TD和值梯度的強(qiáng)化學(xué)習(xí)方法用于LQR控制問題[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年

2 卓睿;陳宗海;陳春林;;強(qiáng)化學(xué)習(xí)在移動機(jī)器人導(dǎo)航上的應(yīng)用[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年

3 張偉;李建更;張家旺;;多智能體強(qiáng)化學(xué)習(xí)在機(jī)器人足球比賽中的應(yīng)用[A];2005年中國智能自動化會議論文集[C];2005年

4 張家旺;韓光勝;張偉;;基于ASPL模型的多智能體強(qiáng)化學(xué)習(xí)在RoboCup中的應(yīng)用[A];2005中國機(jī)器人大賽論文集[C];2005年

5 敬斌;田野;;Robocup中的傳球策略[A];2005中國機(jī)器人大賽論文集[C];2005年

6 陳春林;陳宗海;卓睿;;分層式強(qiáng)化學(xué)習(xí)的定性空間表達(dá)[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年

7 涂自然;王維;梁以業(yè);禹建麗;;基于強(qiáng)化學(xué)習(xí)的自適應(yīng)變步長機(jī)器人路徑規(guī)劃算法[A];2003年中國智能自動化會議論文集（上冊）[C];2003年

8 葉道年;陳衛(wèi)東;;機(jī)器人團(tuán)隊協(xié)作的強(qiáng)化學(xué)習(xí)[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年

9 方寶富;王浩;姚宏亮;楊靜;周晉;;Q學(xué)習(xí)在機(jī)器人足球中的應(yīng)用[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年

10 潘凌寒;程顯毅;;RoboCup仿真比賽中機(jī)器學(xué)習(xí)問題的研究[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年

中國重要報紙全文數(shù)據(jù)庫前10條

1 記者譚云東;[N];湖南日報;2009年

2 記者劉琰;[N];周口日報;2009年

3 王握文劉文韜;[N];湖南日報;2004年

4 江西應(yīng)凱;[N];電腦報;2004年

5 房鵬;[N];中國電腦教育報;2003年

6 本報記者趙博;[N];文匯報;2009年

7 譚育才;[N];赤峰日報;2008年

8 通訊員張兆方張虎;[N];酒泉日報;2009年

9 章斌、特約記者夏吉龍;[N];人民武警;2010年

10 葛會忠;[N];中國體育報;2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 金釗;加速強(qiáng)化學(xué)習(xí)方法研究[D];云南大學(xué);2010年

2 徐明亮;強(qiáng)化學(xué)習(xí)及其應(yīng)用研究[D];江南大學(xué);2010年

3 陳學(xué)松;強(qiáng)化學(xué)習(xí)及其在機(jī)器人系統(tǒng)中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2011年

4 仲宇;分布式強(qiáng)化學(xué)習(xí)理論及在多機(jī)器人中的應(yīng)用研究[D];哈爾濱工程大學(xué);2003年

5 李誌;基于視覺聽覺語義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年

6 郭慶;多Agent系統(tǒng)協(xié)商中若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2003年

7 戴朝暉;基于混合抽象機(jī)制的多智能體系統(tǒng)動態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D];中南大學(xué);2012年

8 楊東勇;多機(jī)器人協(xié)作的學(xué)習(xí)與進(jìn)化方法[D];浙江大學(xué);2005年

9 莊曉東;多移動機(jī)器人運(yùn)動控制策略的強(qiáng)化學(xué)習(xí)研究[D];中國海洋大學(xué);2005年

10 孫碧波;基于學(xué)習(xí)行為的噪聲交易者情緒演化研究[D];復(fù)旦大學(xué);2005年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 莫建文;機(jī)器自學(xué)習(xí)博弈策略研究與實現(xiàn)[D];廣西師范大學(xué);2002年

2 尹曉虎;多Agent協(xié)同的強(qiáng)化學(xué)習(xí)方法研究[D];國防科學(xué)技術(shù)大學(xué);2003年

3 宋梅萍;多移動機(jī)器人協(xié)作任務(wù)的分布式?jīng)Q策控制系統(tǒng)[D];哈爾濱工程大學(xué);2003年

4 盧方國;強(qiáng)化學(xué)習(xí)在個性化信息Agent的應(yīng)用研究[D];廣東工業(yè)大學(xué);2004年

5 郭一明;基于強(qiáng)化學(xué)習(xí)的劣化系統(tǒng)維修策略研究[D];合肥工業(yè)大學(xué);2011年

6 錢征;基于強(qiáng)化學(xué)習(xí)的倒立擺控制研究[D];北京工業(yè)大學(xué);2005年

7 王瑞霞;基于強(qiáng)化學(xué)習(xí)的倒立擺控制[D];北京工業(yè)大學(xué);2005年

8 顧鑫;個性化智能信息檢索系統(tǒng)研究[D];哈爾濱工程大學(xué);2004年

9 張馳;基于ROBOCUP的多智能體系統(tǒng)設(shè)計與實現(xiàn)[D];北京工業(yè)大學(xué);2004年

10 袁繼彬;大規(guī)模Markov系統(tǒng)基于性能勢學(xué)習(xí)的NDP優(yōu)化方法研究[D];合肥工業(yè)大學(xué);2005年

本文關(guān)鍵詞：機(jī)器自學(xué)習(xí)博弈策略研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：75188

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/rengongzhinen/75188.html

上一篇：人工智能在最優(yōu)潮流中的應(yīng)用綜述
下一篇：神經(jīng)網(wǎng)絡(luò)的風(fēng)電場輸出功率短期預(yù)測研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

《廣西師范大學(xué)》2002年碩士論文