基于程序切片的網(wǎng)頁(yè)過(guò)濾技術(shù)
本文關(guān)鍵詞:基于程序切片的網(wǎng)頁(yè)過(guò)濾技術(shù),,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的高速發(fā)展已經(jīng)使其成為世界上覆蓋面最廣、范圍最大、內(nèi)容最為豐富的資源庫(kù)。網(wǎng)絡(luò)已成為人們獲取信息的主要途徑,人們可以在搜索引擎里輸入要查詢的內(nèi)容,索引出自己要查找的資料。但是隨著信息的爆炸,各種無(wú)關(guān)的信息或者廣告摻雜其中,真假難辯。面對(duì)龐大的信息資源,如何從中獲取有價(jià)值的信息成為當(dāng)前一個(gè)非常重要的問(wèn)題。傳統(tǒng)的網(wǎng)頁(yè)過(guò)濾技術(shù)通過(guò)挖掘網(wǎng)頁(yè)中的URL和文本來(lái)與自己數(shù)據(jù)庫(kù)的黑名單進(jìn)行比對(duì),不僅消耗過(guò)多的時(shí)間和資源,也加大了服務(wù)器的承受能力。本文將程序切片技術(shù)應(yīng)用于網(wǎng)頁(yè)過(guò)濾中,通過(guò)將HTML語(yǔ)句構(gòu)造成樹(shù)形圖,將待過(guò)濾的關(guān)鍵字與樹(shù)形圖的葉子結(jié)點(diǎn)進(jìn)行匹配,提取出匹配成功的葉子結(jié)點(diǎn)的父結(jié)點(diǎn)的行號(hào),制定出切片準(zhǔn)則,通過(guò)網(wǎng)頁(yè)代碼中存在的新的依賴關(guān)系,構(gòu)建依賴圖,在切片準(zhǔn)則的基礎(chǔ)上對(duì)依賴圖進(jìn)行切片處理,得到切片,只保留與切片準(zhǔn)則相關(guān)的語(yǔ)句集,最后還原成可視化的網(wǎng)頁(yè)。本文所實(shí)現(xiàn)的網(wǎng)頁(yè)過(guò)濾技術(shù),不僅能有效地過(guò)濾掉用戶不需要的,還可以提取用戶感興趣的,而且過(guò)濾的程度也可以進(jìn)行不同程度的設(shè)置,此方法不僅速度快、對(duì)服務(wù)器的承載能力要求低、還能實(shí)現(xiàn)各種個(gè)性化的過(guò)濾功能。
【關(guān)鍵詞】:網(wǎng)頁(yè)過(guò)濾 標(biāo)簽 程序切片 信息提取 依賴圖
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-13
- 1.1 研究背景及意義8
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀8-9
- 1.3 研究?jī)?nèi)容及創(chuàng)新點(diǎn)9-11
- 1.4 論文結(jié)構(gòu)及其安排11-13
- 第二章 基本概念13-22
- 2.1 網(wǎng)頁(yè)過(guò)濾基本知識(shí)13-16
- 2.1.1 過(guò)濾方式13-14
- 2.1.2 網(wǎng)頁(yè)程序的定義14-15
- 2.1.3 客戶端網(wǎng)頁(yè)中的HTML和JavaScript15
- 2.1.4 網(wǎng)頁(yè)技術(shù)15-16
- 2.2 程序切片的相關(guān)知識(shí)16-19
- 2.2.1 控制流圖16-18
- 2.2.2 數(shù)據(jù)流圖18
- 2.2.3 過(guò)程內(nèi)切片18
- 2.2.4 過(guò)程間切片18-19
- 2.2.5 語(yǔ)句級(jí)依賴圖19
- 2.3 基于依賴圖的切片算法19-21
- 2.3.1 基于過(guò)程內(nèi)的程序的依賴圖的圖可達(dá)性算法20
- 2.3.2 基于多個(gè)函數(shù)的過(guò)程間的切片算法20-21
- 2.4 本章小結(jié)21-22
- 第三章 網(wǎng)頁(yè)程序中依賴關(guān)系的生成22-30
- 3.1 HTML標(biāo)簽語(yǔ)言中依賴關(guān)系的分析22-23
- 3.1.1 HTML語(yǔ)言的簡(jiǎn)介22
- 3.1.2 HTML標(biāo)簽之間依賴關(guān)系22-23
- 3.2 網(wǎng)頁(yè)代碼的依賴關(guān)系23-29
- 3.2.1 網(wǎng)頁(yè)代碼控制依賴關(guān)系的建立24-26
- 3.2.2 網(wǎng)頁(yè)代碼數(shù)據(jù)依賴關(guān)系的建立26-27
- 3.2.3 網(wǎng)頁(yè)代碼中調(diào)用依賴關(guān)系的分析27-29
- 3.3 本章小結(jié)29-30
- 第四章 基于網(wǎng)頁(yè)代碼依賴圖的算法30-45
- 4.1 切片準(zhǔn)則的制定31-34
- 4.1.1 HTML標(biāo)簽依賴圖的構(gòu)建31-32
- 4.1.2 分治法在尋找切片準(zhǔn)則中的應(yīng)用32-33
- 4.1.3 KMP算法在尋找切片準(zhǔn)則中的應(yīng)用33-34
- 4.2 網(wǎng)頁(yè)代碼的程序切片34-38
- 4.2.1 根據(jù)依賴關(guān)系將網(wǎng)頁(yè)代碼構(gòu)造成依賴圖34-35
- 4.2.2 基于網(wǎng)頁(yè)代碼依賴圖的切片處理35-38
- 4.3 多精度過(guò)濾38-43
- 4.3.1 多精度過(guò)濾的信息及其算法40-42
- 4.3.2 可視化準(zhǔn)則42-43
- 4.4 本章小結(jié)43-45
- 第五章 基于程序切片的網(wǎng)頁(yè)過(guò)濾系統(tǒng)的實(shí)現(xiàn)45-50
- 5.1 系統(tǒng)前臺(tái)和源代碼的展示和提取45-47
- 5.2 系統(tǒng)后臺(tái)過(guò)濾部分功能的展示47-48
- 5.3 基于KMP算法的網(wǎng)頁(yè)過(guò)濾與窮舉算法的網(wǎng)頁(yè)過(guò)濾的實(shí)驗(yàn)比較48-49
- 5.4 本章小結(jié)49-50
- 第六章 總結(jié)與展望50-51
- 6.1 本文工作總結(jié)50
- 6.2 未來(lái)工作展望50-51
- 參考文獻(xiàn)51-53
- 附錄1 攻讀碩士學(xué)位期間申請(qǐng)的專利53-54
- 致謝54
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張東準(zhǔn);網(wǎng)頁(yè)減肥工具大觀[J];電腦技術(shù);2001年04期
2 黃家貞;彈指間網(wǎng)頁(yè)內(nèi)碼隨心換[J];電腦知識(shí)與技術(shù);2004年22期
3 黃家貞;彈指間網(wǎng)頁(yè)內(nèi)碼隨心換[J];網(wǎng)絡(luò)與信息;2004年09期
4 宏偉;巧妙抓取防滾屏網(wǎng)頁(yè)[J];電腦愛(ài)好者;2005年20期
5 啟動(dòng);;淺談網(wǎng)頁(yè)文件引用[J];網(wǎng)絡(luò)與信息;2006年05期
6 小叢;;教你輕松抓取無(wú)法滾屏的網(wǎng)頁(yè)[J];計(jì)算機(jī)與網(wǎng)絡(luò);2006年08期
7 花的神明;;追尋網(wǎng)頁(yè)上閃動(dòng)的音樂(lè)[J];電腦迷;2007年12期
8 秋思;;收藏一個(gè)網(wǎng)頁(yè)只需一個(gè)文件[J];電腦愛(ài)好者(普及版);2009年05期
9 唐永明;;淺議網(wǎng)頁(yè)設(shè)計(jì)與制作[J];科技信息;2009年20期
10 蔣偉;徐義平;;個(gè)性化網(wǎng)頁(yè)淺析[J];魅力中國(guó);2009年35期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁(yè)入侵檢測(cè)技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
2 林政;呂雅娟;劉群;馬希榮;;基于雙語(yǔ)混和網(wǎng)頁(yè)的平行語(yǔ)料挖掘[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網(wǎng)頁(yè)褒貶傾向性識(shí)別[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 隋春明;郭志豐;;網(wǎng)頁(yè)防篡改技術(shù)在電力信息網(wǎng)中的應(yīng)用[A];二○○九年全國(guó)電力企業(yè)信息化大會(huì)論文集[C];2009年
5 王海源;石睿智;;高校網(wǎng)頁(yè)惡意代碼的檢測(cè)、清理與預(yù)防[A];中國(guó)高等教育學(xué)會(huì)教育信息化分會(huì)第十次學(xué)術(shù)年會(huì)論文集[C];2010年
6 戴玉剛;;藏文網(wǎng)頁(yè)采集技術(shù)研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
7 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 范德生 鄧亞玲;守住網(wǎng)頁(yè)的秘密[N];電腦報(bào);2005年
2 貞;網(wǎng)頁(yè)特效與瘦身專家[N];中國(guó)電腦教育報(bào);2002年
3 網(wǎng)天;在自己的電腦上發(fā)布網(wǎng)頁(yè)[N];大眾科技報(bào);2000年
4 楊興平 六子;我的網(wǎng)頁(yè)你別動(dòng)[N];電腦報(bào);2004年
5 楊耀祥;簡(jiǎn)繁網(wǎng)頁(yè)批量互轉(zhuǎn)有妙法[N];中國(guó)電腦教育報(bào);2003年
6 河北 李永波;網(wǎng)頁(yè)底圖顯個(gè)性[N];電腦報(bào);2004年
7 ;讓你的網(wǎng)頁(yè)綻放最美麗的特效[N];中國(guó)電腦教育報(bào);2004年
8 劉成富;編輯網(wǎng)頁(yè)有妙法[N];計(jì)算機(jī)世界;2004年
9 綿陽(yáng)南山 iled;讓 Frontpage 2000 給我們“一了百了”[N];電腦報(bào);2001年
10 陳宗偉;妙用查找替換功能編輯網(wǎng)頁(yè)[N];電腦報(bào);2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 李浩;基于眼動(dòng)特征的小屏幕設(shè)備網(wǎng)頁(yè)內(nèi)容適配研究[D];華中師范大學(xué);2013年
2 計(jì)華;Web Spam特征分析及其檢測(cè)技術(shù)研究[D];山東師范大學(xué);2015年
3 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
4 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 杜明明;基于關(guān)鍵詞的垃圾網(wǎng)頁(yè)判別研究[D];哈爾濱工業(yè)大學(xué);2015年
2 劉慕凡;基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究[D];北京化工大學(xué);2015年
3 賀知義;基于關(guān)鍵詞的搜索引擎網(wǎng)頁(yè)去重算法研究[D];華中師范大學(xué);2015年
4 李小娟;基于分類(lèi)技術(shù)的網(wǎng)頁(yè)去噪方法的研究[D];貴州師范大學(xué);2015年
5 李亞?wèn)|;網(wǎng)頁(yè)取證若干關(guān)鍵問(wèn)題研究[D];合肥工業(yè)大學(xué);2014年
6 孫健;基于程序切片的網(wǎng)頁(yè)過(guò)濾技術(shù)[D];南京郵電大學(xué);2015年
7 龔誠(chéng);網(wǎng)頁(yè)增量式采集技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
8 李雙;基于用戶思維模型分析的網(wǎng)頁(yè)可用性設(shè)計(jì)研究[D];江南大學(xué);2008年
9 劉典型;多頁(yè)面特殊網(wǎng)頁(yè)文字提取與合并技術(shù)研究[D];湖南大學(xué);2010年
10 宋鰲;網(wǎng)頁(yè)去噪在交互電視中的應(yīng)用與研究[D];上海交通大學(xué);2011年
本文關(guān)鍵詞:基于程序切片的網(wǎng)頁(yè)過(guò)濾技術(shù),由筆耕文化傳播整理發(fā)布。
本文編號(hào):338601
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/338601.html