【摘要】:近年來,以P2P文件共享類應(yīng)用和P2P流媒體類應(yīng)用為代表的P2P網(wǎng)絡(luò)應(yīng)用迅速發(fā)展,然而與此同時(shí),一些違規(guī)的網(wǎng)絡(luò)資源也借助P2P類網(wǎng)絡(luò)應(yīng)用快速傳播,并引發(fā)了諸多網(wǎng)絡(luò)和社會(huì)問題。如何對(duì)P2P內(nèi)容和信息進(jìn)行有效監(jiān)管已經(jīng)成為目前P2P研究領(lǐng)域中一個(gè)亟待解決的關(guān)鍵問題。 P2P內(nèi)容監(jiān)管行為包括三個(gè)關(guān)鍵步驟,即資源和節(jié)點(diǎn)信息的采集,管理目標(biāo)的選擇以及對(duì)違規(guī)資源傳播的控制。資源和節(jié)點(diǎn)信息的采集是指依據(jù)監(jiān)管目標(biāo),對(duì)目標(biāo)P2P系統(tǒng)中的資源及其發(fā)布信息和節(jié)點(diǎn)信息等數(shù)據(jù)進(jìn)行采集,當(dāng)前采用的主動(dòng)實(shí)現(xiàn)方式之一是爬蟲。管理目標(biāo)的選擇過程是指根據(jù)內(nèi)容管理的目標(biāo)和范圍,在資源和節(jié)點(diǎn)信息采集的基礎(chǔ)上,分辨正常資源和違規(guī)資源的過程。違規(guī)資源傳播控制是指通過技術(shù)和非技術(shù)手段,實(shí)現(xiàn)對(duì)選擇的目標(biāo)資源的傳播進(jìn)行管理的行為,當(dāng)前的主要管理策略集中在降低索引準(zhǔn)確性上,并通過爬蟲系統(tǒng)在待管理P2P系統(tǒng)中發(fā)布錯(cuò)誤的索引信息的方式實(shí)現(xiàn)。然而現(xiàn)有技術(shù)還存在以下問題:1)隨著P2P技術(shù)的發(fā)展,一些原有的數(shù)據(jù)采集技術(shù)已經(jīng)不能完成數(shù)據(jù)采集的任務(wù),比如傳統(tǒng)的基于端口的管理方法等;此外,在對(duì)基于如DHT等新型體系結(jié)構(gòu)的P2P系統(tǒng)進(jìn)行數(shù)據(jù)采集時(shí),現(xiàn)有的采集策略中存在較明顯缺陷,比如全面性不佳和效率低下等問題;2)僅依靠資源的發(fā)布信息作為判斷資源是否違規(guī)的依據(jù),忽略了資源的真實(shí)可用性和不同資源間關(guān)注程度的差異對(duì)監(jiān)管效果帶來的影響;3)目前的通過降低索引準(zhǔn)確性的資源傳播控制策略效果較差,多數(shù)偽造條目可以通過內(nèi)容特征和節(jié)點(diǎn)特征進(jìn)行判斷。 針對(duì)上述問題,本文通過分析P2P系統(tǒng)中資源的分布特征以及內(nèi)容監(jiān)管技術(shù)的研究現(xiàn)狀,重點(diǎn)研究P2P資源發(fā)布信息的采集策略、資源可用性判別方法和內(nèi)容傳播、控制的原理和機(jī)制,論文的主要研究結(jié)果如下: 第一,針對(duì)使用映射類型索引的P2P文件共享應(yīng)用中的資源發(fā)布信息的采集,本文提出一種基于名稱間家族相似性的名稱采集策略。利用名稱間部分相似的組織方式,通過使用已知名稱中的未知部分作為下次迭代初始條件,,以及控制預(yù)先設(shè)定的搜索詞向量,該采集策略能夠在很大程度上完成目標(biāo)系統(tǒng)中的資源發(fā)布信息的快照。實(shí)驗(yàn)在一基于DHT體系結(jié)構(gòu)的實(shí)際P2P系統(tǒng)中,以一搜索詞為初始向量,搜索得到約1000萬個(gè)發(fā)布信息,間接驗(yàn)證了該策略的可行性。 第二,針對(duì)目前P2P內(nèi)容監(jiān)管過程中,僅通過名稱判斷內(nèi)容情況的局限性,本文提出一種基于統(tǒng)計(jì)推斷的內(nèi)容可用性判別方式,用以通過樣本的可用性情況分析整體的可用性水平。區(qū)別于傳統(tǒng)通過比較內(nèi)容與其發(fā)布名稱是否相符,本文用與一個(gè)內(nèi)容關(guān)聯(lián)的不同含義的名稱數(shù)量作為衡量其可用性水平的指標(biāo),顯然關(guān)聯(lián)名稱數(shù)量越多,內(nèi)容的可用性越差。進(jìn)而使用統(tǒng)計(jì)推斷方法判斷該類內(nèi)容總體的可用性水平。相比于傳統(tǒng)的通過名稱判斷資源實(shí)際內(nèi)容的做法,本文提出的內(nèi)容可用性的判定方式,1)能夠有效減少監(jiān)管系統(tǒng)中錯(cuò)誤目標(biāo)的數(shù)量,2)能夠在此基礎(chǔ)上,實(shí)現(xiàn)在名稱和可用性維度上的基于學(xué)習(xí)算法的監(jiān)管目標(biāo)選擇。 第三,針對(duì)目前違規(guī)資源傳播管理策略的局限性,即僅通過改變可用內(nèi)容占一次搜索中全部內(nèi)容比例的局限性,本文基于信息論,將一次內(nèi)容搜索過程描述成內(nèi)容經(jīng)過其發(fā)布信息,從信源向信宿傳播的信道,并基于此信道模型給出了兩種管理策略:1)即通過目前的添加版本和副本的策略,改變信源概率分布;2)通過改變內(nèi)容和節(jié)點(diǎn)特征等信道特征,來影響正常用戶在判斷搜索內(nèi)容是否可用時(shí)的決策。二者都以減小平均互信息量為最終目標(biāo),進(jìn)而達(dá)到減小內(nèi)容成功傳播概率的目的。最后,實(shí)驗(yàn)在一個(gè)實(shí)際P2P系統(tǒng)中通過多元線性規(guī)劃和方差分析等統(tǒng)計(jì)方法分析了影響用戶決策過程的關(guān)鍵因素。通過該基于信息理論的分析,一方面為內(nèi)容傳播控制找到了理論依據(jù),另一方面也擴(kuò)展了現(xiàn)有的僅針對(duì)信源的管理策略。
[Abstract]:......
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.02
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 范國兵;;一種估計(jì)Logistic模型參數(shù)的方法及應(yīng)用實(shí)例[J];經(jīng)濟(jì)數(shù)學(xué);2010年01期
2 孫知信;宮婧;;一種基于流特性描述的P2P流量模糊識(shí)別方法[J];計(jì)算機(jī)學(xué)報(bào);2008年07期
3 黃道穎;張安琳;黃建華;李建春;;P2P網(wǎng)絡(luò)Gnutella 0.6模型研究[J];計(jì)算機(jī)應(yīng)用與軟件;2008年06期
4 劉祥濤;龔才春;劉悅;白碩;;Kad網(wǎng)絡(luò)節(jié)點(diǎn)資源探測分析[J];中文信息學(xué)報(bào);2010年06期
5 王凱東;建設(shè)具有中國特色的社會(huì)主義網(wǎng)絡(luò)文化[J];西安電子科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2000年04期
6 尚新,李剛;范疇化理論的誤區(qū):家族相似性[J];徐州師范大學(xué)學(xué)報(bào);2004年06期
7 李海芬,茆詩松;Pareto分布的檢驗(yàn)[J];徐州師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期
相關(guān)博士學(xué)位論文 前2條
1 張立;網(wǎng)絡(luò)輿論傳播中若干算法的研究[D];北京交通大學(xué);2009年
2 趙旭;廣義Pareto分布的統(tǒng)計(jì)推斷[D];北京工業(yè)大學(xué);2012年
本文編號(hào):
2334350
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2334350.html