《廣西師范大學(xué)》2002年碩士論文
本文關(guān)鍵詞:機(jī)器自學(xué)習(xí)博弈策略研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《廣西師范大學(xué)》 2002年
機(jī)器自學(xué)習(xí)博弈策略研究與實(shí)現(xiàn)
莫建文
【摘要】: 人工智能是近年來很活躍的研究領(lǐng)域之一。機(jī)器學(xué)習(xí)和博弈是人工智能研究的重要分支。國內(nèi)外對博弈的研究已經(jīng)較為廣泛,特別是IBM的國際象棋程序“深藍(lán)”,已經(jīng)達(dá)到了人類的世界冠軍水平。但是這些程序或者需要經(jīng)過大量訓(xùn)練,或者采用死記硬背的學(xué)習(xí)方法,或者是采用大規(guī)模搜索算法實(shí)現(xiàn),難以避免“組合爆炸”的危機(jī),因此,一個(gè)真正“智能”的,有學(xué)習(xí)能力的高效率的博弈策略還有待進(jìn)一步研究。本文將TD(Temporal Difference)預(yù)測與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到一種用于博弈的強(qiáng)化學(xué)習(xí)法,以博弈中常用的極小極大搜索法和NegeScout搜索法為基礎(chǔ),并應(yīng)用它實(shí)現(xiàn)了一個(gè)能自學(xué)習(xí)的五子棋博弈程序。該方法克服了使用靜態(tài)估值函數(shù)的不足,實(shí)踐證明,該方法是成功的,使用該方法的程序經(jīng)過較短時(shí)間的訓(xùn)練后達(dá)到了較好的下棋水平。 本文首先研究了五子棋在計(jì)算機(jī)中的表示問題,討論了計(jì)算機(jī)中存貯棋局和識別下棋次序,局勢狀態(tài)變化及局勢特征的等方法。 其次研究了博弈樹的極小極大搜索技術(shù)及在此基礎(chǔ)上的α-β剪枝過程和剪枝優(yōu)化問題。實(shí)現(xiàn)將候選的后繼節(jié)點(diǎn)按位置鄰近順序排序,使剪枝過程得到優(yōu)化。此外還研究了α-β剪枝的改進(jìn)算法NegeScout算法,此算法首先采用一小的有限α-β窗口,以確定實(shí)際估計(jì)值的范圍,再在這個(gè)較小的范圍中搜索實(shí)際的估計(jì)值。由于在較小的范圍中搜索,效率能得以提高。 再次,根據(jù)五子棋的特點(diǎn),提取棋局局勢的若干特征,對這些特征賦加權(quán)分,并對整個(gè)棋局進(jìn)行特征統(tǒng)計(jì),采用一個(gè)線性函數(shù)求得棋局的總估計(jì)分值。實(shí)踐中,采用極小極大搜索加此靜態(tài)估值技術(shù)的初版程序,達(dá)到了比初學(xué)者強(qiáng)的水平,一些比較熟練的業(yè)余人員時(shí)常也會負(fù)于此程序。 采用固定的估值法,估值的不準(zhǔn)確使其“智力”較低,而且固定的賦值方式使其不能通過學(xué)習(xí)提高。因此我們繼續(xù)研究,利用強(qiáng)化學(xué)習(xí)法(Reiforcement Learning)設(shè)計(jì)了第二版本,具有自學(xué)習(xí)功能的五子棋程序。TD即瞬時(shí)差異預(yù)測法是指在一個(gè)對局中相鄰兩個(gè)時(shí)刻的局面的形勢判斷差值,如果這個(gè)形勢判斷函數(shù)比較準(zhǔn)確,則這個(gè)差(即瞬時(shí)差異)應(yīng)該接近于0,即用后一局面的估計(jì)分值作為前一局面的實(shí)際可能估計(jì)分值。本文中采用將TD預(yù)測法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來設(shè)計(jì)一非線性估值函數(shù),將不同棋局特征的數(shù)目加入神經(jīng)網(wǎng)絡(luò)的輸入端,,輸出端輸出對局勢的估計(jì)分值。學(xué)習(xí)過程中,按照TD預(yù)測法原理,計(jì)算網(wǎng)絡(luò)誤差,利用BP神經(jīng)網(wǎng)絡(luò)誤差傳播法,在對弈過程中,不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,使其網(wǎng)絡(luò)估值準(zhǔn)確度在學(xué)習(xí)中逐步改善,提高程序的下棋水平。 針對BP神經(jīng)網(wǎng)絡(luò)收斂速度慢,本文還采用了網(wǎng)絡(luò)初始化等手段改善網(wǎng)絡(luò)性能。實(shí)踐表明,本程序的學(xué)習(xí)功能較強(qiáng),收斂速度較快,經(jīng)過近1200盤的訓(xùn)練后,程序已經(jīng) WP=4 能擊敗另電腦程序-歡樂五子棋的初級水平,而采用TD強(qiáng)化學(xué)習(xí)法的博弈程序――Tesauro的名叫TD-GAMMON(1995年)的西洋雙陸棋程序經(jīng)過30萬盤與自己的對弈后才取得了與其它同類程序的勝利。
【關(guān)鍵詞】:
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2002
【分類號】:TP181
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 卞凱;;基于強(qiáng)化學(xué)習(xí)的城市交通區(qū)域協(xié)調(diào)控制研究[J];電子技術(shù);2011年08期
2 夏麗麗;;連續(xù)狀態(tài)-連續(xù)行動強(qiáng)化學(xué)習(xí)[J];電腦知識與技術(shù);2011年19期
3 祝宇虹;毛俊鑫;;基于人工情感與Q學(xué)習(xí)的機(jī)器人行為決策[J];機(jī)械與電子;2011年07期
4 劉衛(wèi)紅;周義蓮;;強(qiáng)化學(xué)習(xí)方法在Web服務(wù)組合中的應(yīng)用比較研究[J];計(jì)算機(jī)應(yīng)用與軟件;2011年07期
5 黃付亮;張榮國;陳大川;劉焜;;基于聯(lián)合博弈的多Agent學(xué)習(xí)[J];計(jì)算機(jī)與數(shù)字工程;2011年06期
6 張文柱;邵麗娜;;異構(gòu)無線網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的頻譜管理算法[J];西安電子科技大學(xué)學(xué)報(bào);2011年04期
7 宋毅;劉政宇;徐秋景;;基于CSocKet的網(wǎng)絡(luò)應(yīng)用五子棋設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2011年16期
8 李昭閣;;強(qiáng)化學(xué)習(xí),更新觀念,發(fā)揮校園網(wǎng)作用[J];學(xué)周刊;2011年12期
9 ;玩游戲得大獎 中國移動“第二屆棋牌大賽”火爆進(jìn)行中[J];數(shù)字生活;2011年08期
10 許培;薛偉;;基于Q-learning的一種多Agent系統(tǒng)結(jié)構(gòu)模型[J];計(jì)算機(jī)與數(shù)字工程;2011年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 文鋒;陳宗海;陳春林;;基于RLS-TD和值梯度的強(qiáng)化學(xué)習(xí)方法用于LQR控制問題[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年
2 卓睿;陳宗海;陳春林;;強(qiáng)化學(xué)習(xí)在移動機(jī)器人導(dǎo)航上的應(yīng)用[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年
3 張偉;李建更;張家旺;;多智能體強(qiáng)化學(xué)習(xí)在機(jī)器人足球比賽中的應(yīng)用[A];2005年中國智能自動化會議論文集[C];2005年
4 張家旺;韓光勝;張偉;;基于ASPL模型的多智能體強(qiáng)化學(xué)習(xí)在RoboCup中的應(yīng)用[A];2005中國機(jī)器人大賽論文集[C];2005年
5 敬斌;田野;;Robocup中的傳球策略[A];2005中國機(jī)器人大賽論文集[C];2005年
6 陳春林;陳宗海;卓睿;;分層式強(qiáng)化學(xué)習(xí)的定性空間表達(dá)[A];’2004系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2004年
7 涂自然;王維;梁以業(yè);禹建麗;;基于強(qiáng)化學(xué)習(xí)的自適應(yīng)變步長機(jī)器人路徑規(guī)劃算法[A];2003年中國智能自動化會議論文集(上冊)[C];2003年
8 葉道年;陳衛(wèi)東;;機(jī)器人團(tuán)隊(duì)協(xié)作的強(qiáng)化學(xué)習(xí)[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年
9 方寶富;王浩;姚宏亮;楊靜;周晉;;Q學(xué)習(xí)在機(jī)器人足球中的應(yīng)用[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年
10 潘凌寒;程顯毅;;RoboCup仿真比賽中機(jī)器學(xué)習(xí)問題的研究[A];2004中國機(jī)器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 記者 譚云東;[N];湖南日報(bào);2009年
2 記者 劉琰;[N];周口日報(bào);2009年
3 王握文 劉文韜;[N];湖南日報(bào);2004年
4 江西 應(yīng)凱;[N];電腦報(bào);2004年
5 房鵬;[N];中國電腦教育報(bào);2003年
6 本報(bào)記者 趙博;[N];文匯報(bào);2009年
7 譚育才;[N];赤峰日報(bào);2008年
8 通訊員張兆方 張虎;[N];酒泉日報(bào);2009年
9 章斌、特約記者夏吉龍;[N];人民武警;2010年
10 葛會忠;[N];中國體育報(bào);2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金釗;加速強(qiáng)化學(xué)習(xí)方法研究[D];云南大學(xué);2010年
2 徐明亮;強(qiáng)化學(xué)習(xí)及其應(yīng)用研究[D];江南大學(xué);2010年
3 陳學(xué)松;強(qiáng)化學(xué)習(xí)及其在機(jī)器人系統(tǒng)中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2011年
4 仲宇;分布式強(qiáng)化學(xué)習(xí)理論及在多機(jī)器人中的應(yīng)用研究[D];哈爾濱工程大學(xué);2003年
5 李誌;基于視覺聽覺語義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年
6 郭慶;多Agent系統(tǒng)協(xié)商中若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2003年
7 戴朝暉;基于混合抽象機(jī)制的多智能體系統(tǒng)動態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D];中南大學(xué);2012年
8 楊東勇;多機(jī)器人協(xié)作的學(xué)習(xí)與進(jìn)化方法[D];浙江大學(xué);2005年
9 莊曉東;多移動機(jī)器人運(yùn)動控制策略的強(qiáng)化學(xué)習(xí)研究[D];中國海洋大學(xué);2005年
10 孫碧波;基于學(xué)習(xí)行為的噪聲交易者情緒演化研究[D];復(fù)旦大學(xué);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 莫建文;機(jī)器自學(xué)習(xí)博弈策略研究與實(shí)現(xiàn)[D];廣西師范大學(xué);2002年
2 尹曉虎;多Agent協(xié)同的強(qiáng)化學(xué)習(xí)方法研究[D];國防科學(xué)技術(shù)大學(xué);2003年
3 宋梅萍;多移動機(jī)器人協(xié)作任務(wù)的分布式?jīng)Q策控制系統(tǒng)[D];哈爾濱工程大學(xué);2003年
4 盧方國;強(qiáng)化學(xué)習(xí)在個(gè)性化信息Agent的應(yīng)用研究[D];廣東工業(yè)大學(xué);2004年
5 郭一明;基于強(qiáng)化學(xué)習(xí)的劣化系統(tǒng)維修策略研究[D];合肥工業(yè)大學(xué);2011年
6 錢征;基于強(qiáng)化學(xué)習(xí)的倒立擺控制研究[D];北京工業(yè)大學(xué);2005年
7 王瑞霞;基于強(qiáng)化學(xué)習(xí)的倒立擺控制[D];北京工業(yè)大學(xué);2005年
8 顧鑫;個(gè)性化智能信息檢索系統(tǒng)研究[D];哈爾濱工程大學(xué);2004年
9 張馳;基于ROBOCUP的多智能體系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2004年
10 袁繼彬;大規(guī)模Markov系統(tǒng)基于性能勢學(xué)習(xí)的NDP優(yōu)化方法研究[D];合肥工業(yè)大學(xué);2005年
本文關(guān)鍵詞:機(jī)器自學(xué)習(xí)博弈策略研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:75188
本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/75188.html