天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于程序切片的網(wǎng)頁過濾技術(shù)

發(fā)布時間:2017-05-01 09:03

  本文關(guān)鍵詞:基于程序切片的網(wǎng)頁過濾技術(shù),,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的高速發(fā)展已經(jīng)使其成為世界上覆蓋面最廣、范圍最大、內(nèi)容最為豐富的資源庫。網(wǎng)絡(luò)已成為人們獲取信息的主要途徑,人們可以在搜索引擎里輸入要查詢的內(nèi)容,索引出自己要查找的資料。但是隨著信息的爆炸,各種無關(guān)的信息或者廣告摻雜其中,真假難辯。面對龐大的信息資源,如何從中獲取有價值的信息成為當(dāng)前一個非常重要的問題。傳統(tǒng)的網(wǎng)頁過濾技術(shù)通過挖掘網(wǎng)頁中的URL和文本來與自己數(shù)據(jù)庫的黑名單進(jìn)行比對,不僅消耗過多的時間和資源,也加大了服務(wù)器的承受能力。本文將程序切片技術(shù)應(yīng)用于網(wǎng)頁過濾中,通過將HTML語句構(gòu)造成樹形圖,將待過濾的關(guān)鍵字與樹形圖的葉子結(jié)點(diǎn)進(jìn)行匹配,提取出匹配成功的葉子結(jié)點(diǎn)的父結(jié)點(diǎn)的行號,制定出切片準(zhǔn)則,通過網(wǎng)頁代碼中存在的新的依賴關(guān)系,構(gòu)建依賴圖,在切片準(zhǔn)則的基礎(chǔ)上對依賴圖進(jìn)行切片處理,得到切片,只保留與切片準(zhǔn)則相關(guān)的語句集,最后還原成可視化的網(wǎng)頁。本文所實現(xiàn)的網(wǎng)頁過濾技術(shù),不僅能有效地過濾掉用戶不需要的,還可以提取用戶感興趣的,而且過濾的程度也可以進(jìn)行不同程度的設(shè)置,此方法不僅速度快、對服務(wù)器的承載能力要求低、還能實現(xiàn)各種個性化的過濾功能。
【關(guān)鍵詞】:網(wǎng)頁過濾 標(biāo)簽 程序切片 信息提取 依賴圖
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 緒論8-13
  • 1.1 研究背景及意義8
  • 1.2 國內(nèi)外研究現(xiàn)狀8-9
  • 1.3 研究內(nèi)容及創(chuàng)新點(diǎn)9-11
  • 1.4 論文結(jié)構(gòu)及其安排11-13
  • 第二章 基本概念13-22
  • 2.1 網(wǎng)頁過濾基本知識13-16
  • 2.1.1 過濾方式13-14
  • 2.1.2 網(wǎng)頁程序的定義14-15
  • 2.1.3 客戶端網(wǎng)頁中的HTML和JavaScript15
  • 2.1.4 網(wǎng)頁技術(shù)15-16
  • 2.2 程序切片的相關(guān)知識16-19
  • 2.2.1 控制流圖16-18
  • 2.2.2 數(shù)據(jù)流圖18
  • 2.2.3 過程內(nèi)切片18
  • 2.2.4 過程間切片18-19
  • 2.2.5 語句級依賴圖19
  • 2.3 基于依賴圖的切片算法19-21
  • 2.3.1 基于過程內(nèi)的程序的依賴圖的圖可達(dá)性算法20
  • 2.3.2 基于多個函數(shù)的過程間的切片算法20-21
  • 2.4 本章小結(jié)21-22
  • 第三章 網(wǎng)頁程序中依賴關(guān)系的生成22-30
  • 3.1 HTML標(biāo)簽語言中依賴關(guān)系的分析22-23
  • 3.1.1 HTML語言的簡介22
  • 3.1.2 HTML標(biāo)簽之間依賴關(guān)系22-23
  • 3.2 網(wǎng)頁代碼的依賴關(guān)系23-29
  • 3.2.1 網(wǎng)頁代碼控制依賴關(guān)系的建立24-26
  • 3.2.2 網(wǎng)頁代碼數(shù)據(jù)依賴關(guān)系的建立26-27
  • 3.2.3 網(wǎng)頁代碼中調(diào)用依賴關(guān)系的分析27-29
  • 3.3 本章小結(jié)29-30
  • 第四章 基于網(wǎng)頁代碼依賴圖的算法30-45
  • 4.1 切片準(zhǔn)則的制定31-34
  • 4.1.1 HTML標(biāo)簽依賴圖的構(gòu)建31-32
  • 4.1.2 分治法在尋找切片準(zhǔn)則中的應(yīng)用32-33
  • 4.1.3 KMP算法在尋找切片準(zhǔn)則中的應(yīng)用33-34
  • 4.2 網(wǎng)頁代碼的程序切片34-38
  • 4.2.1 根據(jù)依賴關(guān)系將網(wǎng)頁代碼構(gòu)造成依賴圖34-35
  • 4.2.2 基于網(wǎng)頁代碼依賴圖的切片處理35-38
  • 4.3 多精度過濾38-43
  • 4.3.1 多精度過濾的信息及其算法40-42
  • 4.3.2 可視化準(zhǔn)則42-43
  • 4.4 本章小結(jié)43-45
  • 第五章 基于程序切片的網(wǎng)頁過濾系統(tǒng)的實現(xiàn)45-50
  • 5.1 系統(tǒng)前臺和源代碼的展示和提取45-47
  • 5.2 系統(tǒng)后臺過濾部分功能的展示47-48
  • 5.3 基于KMP算法的網(wǎng)頁過濾與窮舉算法的網(wǎng)頁過濾的實驗比較48-49
  • 5.4 本章小結(jié)49-50
  • 第六章 總結(jié)與展望50-51
  • 6.1 本文工作總結(jié)50
  • 6.2 未來工作展望50-51
  • 參考文獻(xiàn)51-53
  • 附錄1 攻讀碩士學(xué)位期間申請的專利53-54
  • 致謝54

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張東準(zhǔn);網(wǎng)頁減肥工具大觀[J];電腦技術(shù);2001年04期

2 黃家貞;彈指間網(wǎng)頁內(nèi)碼隨心換[J];電腦知識與技術(shù);2004年22期

3 黃家貞;彈指間網(wǎng)頁內(nèi)碼隨心換[J];網(wǎng)絡(luò)與信息;2004年09期

4 宏偉;巧妙抓取防滾屏網(wǎng)頁[J];電腦愛好者;2005年20期

5 啟動;;淺談網(wǎng)頁文件引用[J];網(wǎng)絡(luò)與信息;2006年05期

6 小叢;;教你輕松抓取無法滾屏的網(wǎng)頁[J];計算機(jī)與網(wǎng)絡(luò);2006年08期

7 花的神明;;追尋網(wǎng)頁上閃動的音樂[J];電腦迷;2007年12期

8 秋思;;收藏一個網(wǎng)頁只需一個文件[J];電腦愛好者(普及版);2009年05期

9 唐永明;;淺議網(wǎng)頁設(shè)計與制作[J];科技信息;2009年20期

10 蔣偉;徐義平;;個性化網(wǎng)頁淺析[J];魅力中國;2009年35期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁入侵檢測技術(shù)與實現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會議論文集[C];2009年

2 林政;呂雅娟;劉群;馬希榮;;基于雙語混和網(wǎng)頁的平行語料挖掘[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

3 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網(wǎng)頁褒貶傾向性識別[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

4 隋春明;郭志豐;;網(wǎng)頁防篡改技術(shù)在電力信息網(wǎng)中的應(yīng)用[A];二○○九年全國電力企業(yè)信息化大會論文集[C];2009年

5 王海源;石睿智;;高校網(wǎng)頁惡意代碼的檢測、清理與預(yù)防[A];中國高等教育學(xué)會教育信息化分會第十次學(xué)術(shù)年會論文集[C];2010年

6 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

7 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動的WEB信息提取和集成[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 范德生 鄧亞玲;守住網(wǎng)頁的秘密[N];電腦報;2005年

2 貞;網(wǎng)頁特效與瘦身專家[N];中國電腦教育報;2002年

3 網(wǎng)天;在自己的電腦上發(fā)布網(wǎng)頁[N];大眾科技報;2000年

4 楊興平 六子;我的網(wǎng)頁你別動[N];電腦報;2004年

5 楊耀祥;簡繁網(wǎng)頁批量互轉(zhuǎn)有妙法[N];中國電腦教育報;2003年

6 河北 李永波;網(wǎng)頁底圖顯個性[N];電腦報;2004年

7 ;讓你的網(wǎng)頁綻放最美麗的特效[N];中國電腦教育報;2004年

8 劉成富;編輯網(wǎng)頁有妙法[N];計算機(jī)世界;2004年

9 綿陽南山 iled;讓 Frontpage 2000 給我們“一了百了”[N];電腦報;2001年

10 陳宗偉;妙用查找替換功能編輯網(wǎng)頁[N];電腦報;2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 李浩;基于眼動特征的小屏幕設(shè)備網(wǎng)頁內(nèi)容適配研究[D];華中師范大學(xué);2013年

2 計華;Web Spam特征分析及其檢測技術(shù)研究[D];山東師范大學(xué);2015年

3 陳定權(quán);自動主題搜索的應(yīng)用研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報中心);2003年

4 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 杜明明;基于關(guān)鍵詞的垃圾網(wǎng)頁判別研究[D];哈爾濱工業(yè)大學(xué);2015年

2 劉慕凡;基于主題與語義的作弊網(wǎng)頁檢測方法研究[D];北京化工大學(xué);2015年

3 賀知義;基于關(guān)鍵詞的搜索引擎網(wǎng)頁去重算法研究[D];華中師范大學(xué);2015年

4 李小娟;基于分類技術(shù)的網(wǎng)頁去噪方法的研究[D];貴州師范大學(xué);2015年

5 李亞東;網(wǎng)頁取證若干關(guān)鍵問題研究[D];合肥工業(yè)大學(xué);2014年

6 孫健;基于程序切片的網(wǎng)頁過濾技術(shù)[D];南京郵電大學(xué);2015年

7 龔誠;網(wǎng)頁增量式采集技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

8 李雙;基于用戶思維模型分析的網(wǎng)頁可用性設(shè)計研究[D];江南大學(xué);2008年

9 劉典型;多頁面特殊網(wǎng)頁文字提取與合并技術(shù)研究[D];湖南大學(xué);2010年

10 宋鰲;網(wǎng)頁去噪在交互電視中的應(yīng)用與研究[D];上海交通大學(xué);2011年


  本文關(guān)鍵詞:基于程序切片的網(wǎng)頁過濾技術(shù),由筆耕文化傳播整理發(fā)布。



本文編號:338601

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/338601.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3cb0e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com