基于多臂賭博機(jī)在線學(xué)習(xí)的頻譜共享方法
發(fā)布時(shí)間:2019-09-11 09:27
【摘要】:針對(duì)頻譜共享中信道狀態(tài)建模為完全知識(shí)馬爾科夫時(shí),應(yīng)用受限的問(wèn)題,提出了不同信道下基于信道感知的在線學(xué)習(xí)。根據(jù)授權(quán)用戶是否存在于當(dāng)前信道來(lái)選擇激進(jìn)發(fā)送或保守發(fā)送,由于保守發(fā)送時(shí),信道狀態(tài)是不可觀測(cè)的,因此將信道模型建模為部分可觀測(cè)馬爾科夫決策過(guò)程。將信道未知情況下的最優(yōu)傳輸策略建模為多臂賭博機(jī)模型。仿真結(jié)果表明,在信道不完全可知情況下的多臂賭博機(jī)在線學(xué)習(xí)算法能獲得最優(yōu)K步策略,并通過(guò)UCB-TUNED方法改善了最優(yōu)傳輸?shù)腒步保守策略的收斂性。
【圖文】:
計(jì)算機(jī)工程與設(shè)計(jì)2014年1系統(tǒng)模型假設(shè)在授權(quán)用戶網(wǎng)絡(luò)中,每個(gè)信道只有兩種狀態(tài)S,即二值的Gilbert-Elliott馬爾科夫鏈:如圖1所示,當(dāng)S=1時(shí),表示當(dāng)前信道空閑;當(dāng)S=0時(shí),表示當(dāng)前狀態(tài)忙碌。圖1中λ0為信道的狀態(tài)從忙到空閑的轉(zhuǎn)移概率,(1-λ1)為信道的狀態(tài)從空閑到忙碌的轉(zhuǎn)移概率。圖1G-E信道模型1.1基于POMDP的信道建模的速率傳輸才能成功。轉(zhuǎn)移概率為假設(shè)當(dāng)前信道為Gilbert-Elliott信道即具有二值狀態(tài)的馬爾科夫鏈,當(dāng)S=1時(shí),表示當(dāng)前信道處于空閑,對(duì)于SU而言信道狀態(tài)較好,能夠成功地高速傳輸數(shù)據(jù);當(dāng)S=0時(shí),表示當(dāng)前信道忙碌,對(duì)SU而言信道狀態(tài)較差,SU只有以較低P=P00P01P10P[]11=1-λ0λ01-λ1λ[]1(1)令α=λ1-λ0,假設(shè)信道為正相關(guān),則α>0。在每一次時(shí)隙的開(kāi)始,SU需要做出動(dòng)作選擇:(1)保守發(fā)送(SC):SU低速數(shù)據(jù)傳輸。在該動(dòng)作下,不管當(dāng)前信道處于何種狀態(tài),SU傳輸數(shù)據(jù)均能取得成功,并取得回報(bào)R1。因此,在該動(dòng)作下SU不能對(duì)信道狀態(tài)進(jìn)行學(xué)習(xí)。(2)激進(jìn)發(fā)送(SA):SU高速數(shù)據(jù)傳輸。如果信道狀態(tài)好,SU高速數(shù)據(jù)傳輸獲得成功,并得到回報(bào)R2,且有R2>R1;如果信道狀態(tài)差,高速數(shù)據(jù)傳輸將導(dǎo)致很高的錯(cuò)誤率和丟包率,,并獲得懲罰值C。因此,在該動(dòng)作下SU可以通過(guò)學(xué)習(xí)獲得信道下一時(shí)刻的狀態(tài)。當(dāng)保守發(fā)送時(shí),信道的狀態(tài)并不能直接觀察,因此本文將該問(wèn)題建模為POMDP模型。該PO
計(jì)算機(jī)工程與設(shè)計(jì)2014年lognnimin14,Vi(ni{}i幔┭≡褡畬蟮模眨茫祿潁眨茫攏裕酰睿澹淶鬧底魑鼻暗淖鈑瘧郟⒃誦械鼻白鈑瘧。end傚P潁澹睿洌媯錚蚍掄娣治觶焊菀隕纖惴ú街璧貿(mào)鐾跡場(chǎng)跡丁M跡澄ü眨茫濾惴,获得同一胳n耍埃劍埃常逗挺耍保劍埃梗斃諾雷刺濾斜鄣謀硐鄭渲械北畚筆筆歉瞇諾雷刺碌淖鈑瘧郟孀旁誦惺奔湓黽櫻郟北謊≈性誦械氖奔潯惹饗蠐冢保淥鄣氖褂寐是饗蠐冢,磦蝤諛I(yè)階鈑瘧邸M姆椒ǹ傻玫狡淥耍昂挺耍倍雜Φ淖鈑瘧。哇E誠(chéng)嗤諾雷刺碌淖鈑瘧弁跡床煌諾雷刺碌淖鈑瘧弁跡迪嗤諾雷刺攏眨茫攏裕眨危牛暮蟮淖鈑瘧弁跡次ü眨茫濾惴ǎ竦貌煌摩耍昂挺耍斃諾雷刺露雜ψ鈑瘧鄣氖樟殘?jiān),从哇E粗鋅杉孀攀奔淶腦黽櫻鈑瘧郾謊≈性誦械氖奔潯戎鸞デ饔冢。哇E滴ü眨茫攏簦酰潁睿澹淥惴ǎ桓靚耍昂挺耍斃糯鎰賜跡恫煌諾雷刺攏眨茫攏裕眨危牛暮蟮淖鈑瘧厶攏斜鄣謀硐鄭臚跡擔(dān)眨茫濾惴ㄏ啾冉,收敛藗R雀臁M跡段ü眨茫攏簦酰潁睿澹淥惴,不同的λ0和λ乐Z雷刺攏鄣氖樟殘雜臚跡叮眨茫濾惴ㄏ啾冉,收敛藗R雀。4结束语当前兄Z雷鈑糯浯蠖際腔諭耆抖孕諾瀾#疚惱攵勻現(xiàn)尷叩緇肪巢煌耆芍榭魷攏諾瀾N糠摯曬鄄飴磯品蜆,提畴h嘶詼啾鄱牟┗淖鈑糯淶腦諳哐胺椒ā7掄娣治霰礱鰨諦諾啦煌耆芍榭魷碌畝啾鄱牟┗諳哐八惴ㄓ肽芑竦米鈑牛瞬講唄。同
本文編號(hào):2534338
【圖文】:
計(jì)算機(jī)工程與設(shè)計(jì)2014年1系統(tǒng)模型假設(shè)在授權(quán)用戶網(wǎng)絡(luò)中,每個(gè)信道只有兩種狀態(tài)S,即二值的Gilbert-Elliott馬爾科夫鏈:如圖1所示,當(dāng)S=1時(shí),表示當(dāng)前信道空閑;當(dāng)S=0時(shí),表示當(dāng)前狀態(tài)忙碌。圖1中λ0為信道的狀態(tài)從忙到空閑的轉(zhuǎn)移概率,(1-λ1)為信道的狀態(tài)從空閑到忙碌的轉(zhuǎn)移概率。圖1G-E信道模型1.1基于POMDP的信道建模的速率傳輸才能成功。轉(zhuǎn)移概率為假設(shè)當(dāng)前信道為Gilbert-Elliott信道即具有二值狀態(tài)的馬爾科夫鏈,當(dāng)S=1時(shí),表示當(dāng)前信道處于空閑,對(duì)于SU而言信道狀態(tài)較好,能夠成功地高速傳輸數(shù)據(jù);當(dāng)S=0時(shí),表示當(dāng)前信道忙碌,對(duì)SU而言信道狀態(tài)較差,SU只有以較低P=P00P01P10P[]11=1-λ0λ01-λ1λ[]1(1)令α=λ1-λ0,假設(shè)信道為正相關(guān),則α>0。在每一次時(shí)隙的開(kāi)始,SU需要做出動(dòng)作選擇:(1)保守發(fā)送(SC):SU低速數(shù)據(jù)傳輸。在該動(dòng)作下,不管當(dāng)前信道處于何種狀態(tài),SU傳輸數(shù)據(jù)均能取得成功,并取得回報(bào)R1。因此,在該動(dòng)作下SU不能對(duì)信道狀態(tài)進(jìn)行學(xué)習(xí)。(2)激進(jìn)發(fā)送(SA):SU高速數(shù)據(jù)傳輸。如果信道狀態(tài)好,SU高速數(shù)據(jù)傳輸獲得成功,并得到回報(bào)R2,且有R2>R1;如果信道狀態(tài)差,高速數(shù)據(jù)傳輸將導(dǎo)致很高的錯(cuò)誤率和丟包率,,并獲得懲罰值C。因此,在該動(dòng)作下SU可以通過(guò)學(xué)習(xí)獲得信道下一時(shí)刻的狀態(tài)。當(dāng)保守發(fā)送時(shí),信道的狀態(tài)并不能直接觀察,因此本文將該問(wèn)題建模為POMDP模型。該PO
計(jì)算機(jī)工程與設(shè)計(jì)2014年lognnimin14,Vi(ni{}i幔┭≡褡畬蟮模眨茫祿潁眨茫攏裕酰睿澹淶鬧底魑鼻暗淖鈑瘧郟⒃誦械鼻白鈑瘧。end傚P潁澹睿洌媯錚蚍掄娣治觶焊菀隕纖惴ú街璧貿(mào)鐾跡場(chǎng)跡丁M跡澄ü眨茫濾惴,获得同一胳n耍埃劍埃常逗挺耍保劍埃梗斃諾雷刺濾斜鄣謀硐鄭渲械北畚筆筆歉瞇諾雷刺碌淖鈑瘧郟孀旁誦惺奔湓黽櫻郟北謊≈性誦械氖奔潯惹饗蠐冢保淥鄣氖褂寐是饗蠐冢,磦蝤諛I(yè)階鈑瘧邸M姆椒ǹ傻玫狡淥耍昂挺耍倍雜Φ淖鈑瘧。哇E誠(chéng)嗤諾雷刺碌淖鈑瘧弁跡床煌諾雷刺碌淖鈑瘧弁跡迪嗤諾雷刺攏眨茫攏裕眨危牛暮蟮淖鈑瘧弁跡次ü眨茫濾惴ǎ竦貌煌摩耍昂挺耍斃諾雷刺露雜ψ鈑瘧鄣氖樟殘?jiān),从哇E粗鋅杉孀攀奔淶腦黽櫻鈑瘧郾謊≈性誦械氖奔潯戎鸞デ饔冢。哇E滴ü眨茫攏簦酰潁睿澹淥惴ǎ桓靚耍昂挺耍斃糯鎰賜跡恫煌諾雷刺攏眨茫攏裕眨危牛暮蟮淖鈑瘧厶攏斜鄣謀硐鄭臚跡擔(dān)眨茫濾惴ㄏ啾冉,收敛藗R雀臁M跡段ü眨茫攏簦酰潁睿澹淥惴,不同的λ0和λ乐Z雷刺攏鄣氖樟殘雜臚跡叮眨茫濾惴ㄏ啾冉,收敛藗R雀。4结束语当前兄Z雷鈑糯浯蠖際腔諭耆抖孕諾瀾#疚惱攵勻現(xiàn)尷叩緇肪巢煌耆芍榭魷攏諾瀾N糠摯曬鄄飴磯品蜆,提畴h嘶詼啾鄱牟┗淖鈑糯淶腦諳哐胺椒ā7掄娣治霰礱鰨諦諾啦煌耆芍榭魷碌畝啾鄱牟┗諳哐八惴ㄓ肽芑竦米鈑牛瞬講唄。同
本文編號(hào):2534338
本文鏈接:http://sikaile.net/kejilunwen/wltx/2534338.html
最近更新
教材專著