重復(fù)囚徒困境模型中零行列式策略的研究
發(fā)布時間:2018-04-24 06:28
本文選題:重復(fù)囚徒困境博弈 + 零行列式策略; 參考:《蘇州大學(xué)》2015年碩士論文
【摘要】:本論文研究了重復(fù)囚徒困境模型中零行列式(zero-determinant,ZD)策略之間或與經(jīng)典策略(All C、All D、TFT、WSLS)之間的博弈關(guān)系。在零行列式策略的集合中,存在一類敲詐型策略,參與者使用該敲詐型策略獲得的收益相對于參考相互不合作的收益的盈余,可以是其競爭對手的χ(χ1)倍。本文推廣參考相互不合作收益至更一般的情形,即通過調(diào)節(jié)參數(shù)σ(σ∈[0,1])使得參考收益值可以在相互不合作收益與相互合作收益之間連續(xù)變化。我們推導(dǎo)了ZD策略與ZD策略或者ZD策略與各個經(jīng)典策略進(jìn)行博弈的期望收益表達(dá)式。首先研究了策略在有限大小的全局耦合人群以及二維正方格子人群中的博弈演化行為,該演化行為是在基于參與者模仿表現(xiàn)更好的近鄰策略的規(guī)則下進(jìn)行。我們發(fā)現(xiàn)通過調(diào)節(jié)σ,敲詐型ZD策略(σ~0),雖然可以獲得比對手更多的收益盈余,但是這類敲詐型ZD策略在群體中不具有演化穩(wěn)定性。相反,慷慨型ZD策略(σ~1),雖然讓對手獲得更多的收益盈余,但這類慷慨型的ZD策略可以和其他策略在人群中共存,甚至打敗其他策略,從而占據(jù)優(yōu)勢地位。本文通過對比全局耦合人群中ZD策略之間以及ZD策略與經(jīng)典策略博弈時的平均收益,從理論及計算機(jī)模擬分析了系統(tǒng)達(dá)到平衡態(tài)時ZD策略的濃度,并利用收益帶理論分析了各類策略在二維正方格子上的演化行為。本論文還提出并研究了一種自適應(yīng)的ZD策略和經(jīng)典策略在參與者之間具有空間結(jié)構(gòu)人際關(guān)系系統(tǒng)中的博弈演化行為。參與者除了可以有一定幾率模仿表現(xiàn)好的近鄰策略的能力外,使用ZD策略的參與者還可以有一定的更新幾率根據(jù)所處的競爭環(huán)境來調(diào)整自己的ZD策略。這種自適應(yīng)ZD策略可以自我調(diào)整為敲詐型ZD策略,來避免在遇到背叛者時一直被對手欺詐或者在遇到無條件合作的參與者時占據(jù)優(yōu)勢。自適應(yīng)ZD策略也可以在遇到有條件合作的策略時進(jìn)化為慷慨型策略。這種自適應(yīng)機(jī)制可以讓ZD策略更具競爭力。模擬結(jié)果表明,當(dāng)ZD策略更快地進(jìn)行自適應(yīng)而不是模仿其他策略時,自適應(yīng)的ZD策略可以打敗其他策略或者至少可以與其他策略在系統(tǒng)中共存。
[Abstract]:In this paper, the game relations between zero-determinant ZDs and all all all Dems in the model of repeated prisoners' Dilemma are studied. In the set of zero-determinant strategies, there exists a class of extortion strategies, in which participants gain a surplus of 蠂 (蠂 ~ 1) of their competitors relative to the reference non-cooperative returns. In this paper, we extend the reference mutual uncooperative benefit to a more general case, that is, by adjusting the parameter 蟽 (蟽 鈭,
本文編號:1795516
本文鏈接:http://sikaile.net/kejilunwen/yysx/1795516.html
最近更新
教材專著