基于深度強(qiáng)化學(xué)習(xí)的報(bào)文分類技術(shù)的研究
發(fā)布時間:2021-10-29 03:36
報(bào)文分類問題是計(jì)算機(jī)網(wǎng)絡(luò)的一個基本問題,主要研究如何高效的對進(jìn)入網(wǎng)絡(luò)設(shè)備的報(bào)文進(jìn)行分析判斷,并決定應(yīng)用何種方式來處理報(bào)文。近年來伴隨著網(wǎng)絡(luò)規(guī)模和性能的發(fā)展,報(bào)文分類問題在效率和資源占用等方面又有了新的要求。傳統(tǒng)的基于人工規(guī)則和啟發(fā)式方法的報(bào)文分類算法,一方面分類性能不盡如人意,另一方面受制于較差的泛化性能,不能滿足網(wǎng)絡(luò)規(guī)則快速迭代的當(dāng)今網(wǎng)絡(luò)環(huán)境的需要。本文提出一種不需要人工參與的基于學(xué)習(xí)的報(bào)文分類方法,使用深度強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建模型,同時借鑒了傳統(tǒng)的啟發(fā)式報(bào)文分類方法的優(yōu)勢,真正實(shí)現(xiàn)了端到端的報(bào)文分類模型構(gòu)建,通過在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并與當(dāng)前成熟的報(bào)文分類方法進(jìn)行比較,證實(shí)本算法能較大幅度地提高報(bào)文分類的分類性能和泛化性能。本文詳細(xì)闡述了算法對傳統(tǒng)算法的吸取和改進(jìn),并說明了將傳統(tǒng)報(bào)文分類算法應(yīng)用到強(qiáng)化學(xué)習(xí)領(lǐng)域的基本思路。同時說明了深度強(qiáng)化學(xué)習(xí)環(huán)境的設(shè)計(jì)思路和訓(xùn)練算法的設(shè)計(jì)細(xì)節(jié),最后說明了強(qiáng)化學(xué)習(xí)和報(bào)文分類任務(wù)的契合性,揭示了強(qiáng)化學(xué)習(xí)算法可以被成功應(yīng)用到報(bào)文分類任務(wù)中的原因。除了闡述算法的基本思路以外,本文詳細(xì)說明了算法的實(shí)現(xiàn)細(xì)節(jié),尤其是在大規(guī)模網(wǎng)絡(luò)上進(jìn)行算法實(shí)現(xiàn)時所需要的分布式訓(xùn)練技術(shù),這...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1分類器示意圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-7-匹配優(yōu)先級較高的規(guī)則。這樣報(bào)文分類問題就被轉(zhuǎn)化為如下問題:給定一個分類器C,每當(dāng)一個網(wǎng)絡(luò)數(shù)據(jù)包P到達(dá)路由器,如何能夠快速而準(zhǔn)確地為數(shù)據(jù)包P找到一個最合適的匹配規(guī)則R,并執(zhí)行該規(guī)則對應(yīng)的動作。如上所述,我們假設(shè)規(guī)則對應(yīng)的域的取值為區(qū)間范圍,而每一個數(shù)據(jù)包的對應(yīng)的域取值為一個值,則我們可以容易地將報(bào)文分類問題抽象為一個計(jì)算幾何問題。一個包含兩個域的規(guī)則可以視為二維歐幾里得空間中的一個矩形,一個包含d個域的規(guī)則可以視為d維歐幾里得空間中的一個超矩形。而每一個數(shù)據(jù)包可以看作空間中一個點(diǎn)。伴隨著多個規(guī)則將空間進(jìn)行切分,最終數(shù)據(jù)包在空間中的點(diǎn)將落在某個矩形中。隨后對該數(shù)據(jù)包執(zhí)行該矩形對應(yīng)的動作。需要注意的是,規(guī)則所對應(yīng)的矩形之間可能會有重疊,這意味著數(shù)據(jù)包落點(diǎn)所對應(yīng)的規(guī)則可能不止一個,在這種情況下需要考慮對規(guī)則進(jìn)行優(yōu)先級排序[21]?紤]2.1所對應(yīng)的分類器,其對應(yīng)的計(jì)算幾何解釋如下圖所示:圖2-2分類器對應(yīng)的計(jì)算幾何解釋這樣報(bào)文分類問題就被轉(zhuǎn)化為如下的計(jì)算幾何問題:在分類器所考慮的域所構(gòu)成的歐幾里得空間中,考慮使用規(guī)則所對應(yīng)的超矩形對該空間進(jìn)行劃分,并選擇包含數(shù)據(jù)包(Packet)所對應(yīng)點(diǎn)的優(yōu)先級最高的超矩形并執(zhí)行相應(yīng)動作的過程。該問題已經(jīng)在計(jì)算幾何領(lǐng)域研究多年。在一個d維幾何空間(d>3),考慮n個互相沒有交集的矩形區(qū)域,定位某個點(diǎn)屬于哪個幾何區(qū)域。該問題或者存在一個O(logn)的時間下界和O(dn)的空間下界,或者存在一個O(nd1log)的時間下界和O(n)的空間下界,考慮到報(bào)文分類問題允許規(guī)則超矩形之間存在空間位
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-2.3強(qiáng)化學(xué)習(xí)技術(shù)強(qiáng)化學(xué)習(xí)是智能體通過與環(huán)境進(jìn)行交互來使數(shù)值化的收益信號最大化的方法。智能體不會被告知應(yīng)該采取什么動作,而必須自己通過嘗試去發(fā)現(xiàn)哪些動作會產(chǎn)生最豐厚的收益。強(qiáng)化學(xué)習(xí)技術(shù)將與智能體交互的環(huán)境抽象為一個有限馬爾科夫決策過程(MDP),在與環(huán)境交互的過程中通過算法平衡智能體探索(Exploration)和利用(Exploitation)等與環(huán)境的交互來獲得更為合適的策略(policy)。以下簡要介紹強(qiáng)化學(xué)習(xí)技術(shù)中基于值的方法(value-based)和基于策略的方法(policy-based)。在本文中我們假設(shè)環(huán)境是分幕式的(episode),同時我們假設(shè)智能體的動作空間是離散的。一個常見的強(qiáng)化學(xué)習(xí)交互過程如下圖所示:圖2-4強(qiáng)化學(xué)習(xí)交互過程智能體(Agent)通過與環(huán)境(Environment)進(jìn)行交互,根據(jù)環(huán)境提供的狀態(tài)(State),結(jié)合智能體的策略(Policy)選擇合適的動作(Action),并獲得環(huán)境提供的獎勵函數(shù)(Reward),如此迭代。2.3.1基于值的方法基于值的強(qiáng)化學(xué)習(xí)方法[24]首先評估抽象環(huán)境中狀態(tài)和動作的好壞,然后根據(jù)狀態(tài)和動作的評估值來選擇相應(yīng)動作并形成策略。如在強(qiáng)化學(xué)習(xí)中為了評估當(dāng)前狀態(tài)的好壞,引入狀態(tài)值函數(shù),其定義如下所示:tttssrEV]|[)((2-6)上述公式表示某狀態(tài)下未來累積回報(bào)的期望,期望越大說明當(dāng)前狀態(tài)越有利,從而評估了當(dāng)前的優(yōu)劣。相似的,我們定義狀態(tài)動作值函數(shù),其函數(shù)表示定義如下式所示:QaasrEs),|(),(ttt(2-7)
【參考文獻(xiàn)】:
期刊論文
[1]Google Protobuf在Linux Socket通訊中的應(yīng)用[J]. 李紀(jì)欣,王康,周立發(fā),章軍. 電腦開發(fā)與應(yīng)用. 2013(04)
[2]報(bào)文分類算法研究[J]. 孫毅,劉彤,蔡一兵,胡金龍,石晶林. 計(jì)算機(jī)應(yīng)用研究. 2007(04)
[3]報(bào)文分類技術(shù)的研究及其應(yīng)用[J]. 田立勤,林闖. 計(jì)算機(jī)研究與發(fā)展. 2003(06)
碩士論文
[1]決策樹ID3算法的改進(jìn)研究[D]. 劉祺.哈爾濱工程大學(xué) 2009
本文編號:3463878
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1分類器示意圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-7-匹配優(yōu)先級較高的規(guī)則。這樣報(bào)文分類問題就被轉(zhuǎn)化為如下問題:給定一個分類器C,每當(dāng)一個網(wǎng)絡(luò)數(shù)據(jù)包P到達(dá)路由器,如何能夠快速而準(zhǔn)確地為數(shù)據(jù)包P找到一個最合適的匹配規(guī)則R,并執(zhí)行該規(guī)則對應(yīng)的動作。如上所述,我們假設(shè)規(guī)則對應(yīng)的域的取值為區(qū)間范圍,而每一個數(shù)據(jù)包的對應(yīng)的域取值為一個值,則我們可以容易地將報(bào)文分類問題抽象為一個計(jì)算幾何問題。一個包含兩個域的規(guī)則可以視為二維歐幾里得空間中的一個矩形,一個包含d個域的規(guī)則可以視為d維歐幾里得空間中的一個超矩形。而每一個數(shù)據(jù)包可以看作空間中一個點(diǎn)。伴隨著多個規(guī)則將空間進(jìn)行切分,最終數(shù)據(jù)包在空間中的點(diǎn)將落在某個矩形中。隨后對該數(shù)據(jù)包執(zhí)行該矩形對應(yīng)的動作。需要注意的是,規(guī)則所對應(yīng)的矩形之間可能會有重疊,這意味著數(shù)據(jù)包落點(diǎn)所對應(yīng)的規(guī)則可能不止一個,在這種情況下需要考慮對規(guī)則進(jìn)行優(yōu)先級排序[21]?紤]2.1所對應(yīng)的分類器,其對應(yīng)的計(jì)算幾何解釋如下圖所示:圖2-2分類器對應(yīng)的計(jì)算幾何解釋這樣報(bào)文分類問題就被轉(zhuǎn)化為如下的計(jì)算幾何問題:在分類器所考慮的域所構(gòu)成的歐幾里得空間中,考慮使用規(guī)則所對應(yīng)的超矩形對該空間進(jìn)行劃分,并選擇包含數(shù)據(jù)包(Packet)所對應(yīng)點(diǎn)的優(yōu)先級最高的超矩形并執(zhí)行相應(yīng)動作的過程。該問題已經(jīng)在計(jì)算幾何領(lǐng)域研究多年。在一個d維幾何空間(d>3),考慮n個互相沒有交集的矩形區(qū)域,定位某個點(diǎn)屬于哪個幾何區(qū)域。該問題或者存在一個O(logn)的時間下界和O(dn)的空間下界,或者存在一個O(nd1log)的時間下界和O(n)的空間下界,考慮到報(bào)文分類問題允許規(guī)則超矩形之間存在空間位
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-2.3強(qiáng)化學(xué)習(xí)技術(shù)強(qiáng)化學(xué)習(xí)是智能體通過與環(huán)境進(jìn)行交互來使數(shù)值化的收益信號最大化的方法。智能體不會被告知應(yīng)該采取什么動作,而必須自己通過嘗試去發(fā)現(xiàn)哪些動作會產(chǎn)生最豐厚的收益。強(qiáng)化學(xué)習(xí)技術(shù)將與智能體交互的環(huán)境抽象為一個有限馬爾科夫決策過程(MDP),在與環(huán)境交互的過程中通過算法平衡智能體探索(Exploration)和利用(Exploitation)等與環(huán)境的交互來獲得更為合適的策略(policy)。以下簡要介紹強(qiáng)化學(xué)習(xí)技術(shù)中基于值的方法(value-based)和基于策略的方法(policy-based)。在本文中我們假設(shè)環(huán)境是分幕式的(episode),同時我們假設(shè)智能體的動作空間是離散的。一個常見的強(qiáng)化學(xué)習(xí)交互過程如下圖所示:圖2-4強(qiáng)化學(xué)習(xí)交互過程智能體(Agent)通過與環(huán)境(Environment)進(jìn)行交互,根據(jù)環(huán)境提供的狀態(tài)(State),結(jié)合智能體的策略(Policy)選擇合適的動作(Action),并獲得環(huán)境提供的獎勵函數(shù)(Reward),如此迭代。2.3.1基于值的方法基于值的強(qiáng)化學(xué)習(xí)方法[24]首先評估抽象環(huán)境中狀態(tài)和動作的好壞,然后根據(jù)狀態(tài)和動作的評估值來選擇相應(yīng)動作并形成策略。如在強(qiáng)化學(xué)習(xí)中為了評估當(dāng)前狀態(tài)的好壞,引入狀態(tài)值函數(shù),其定義如下所示:tttssrEV]|[)((2-6)上述公式表示某狀態(tài)下未來累積回報(bào)的期望,期望越大說明當(dāng)前狀態(tài)越有利,從而評估了當(dāng)前的優(yōu)劣。相似的,我們定義狀態(tài)動作值函數(shù),其函數(shù)表示定義如下式所示:QaasrEs),|(),(ttt(2-7)
【參考文獻(xiàn)】:
期刊論文
[1]Google Protobuf在Linux Socket通訊中的應(yīng)用[J]. 李紀(jì)欣,王康,周立發(fā),章軍. 電腦開發(fā)與應(yīng)用. 2013(04)
[2]報(bào)文分類算法研究[J]. 孫毅,劉彤,蔡一兵,胡金龍,石晶林. 計(jì)算機(jī)應(yīng)用研究. 2007(04)
[3]報(bào)文分類技術(shù)的研究及其應(yīng)用[J]. 田立勤,林闖. 計(jì)算機(jī)研究與發(fā)展. 2003(06)
碩士論文
[1]決策樹ID3算法的改進(jìn)研究[D]. 劉祺.哈爾濱工程大學(xué) 2009
本文編號:3463878
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3463878.html
最近更新
教材專著