天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于組合特征的網(wǎng)頁主題塊識(shí)別算法

發(fā)布時(shí)間:2017-12-14 12:10

  本文關(guān)鍵詞:基于組合特征的網(wǎng)頁主題塊識(shí)別算法


  更多相關(guān)文章: 主題塊 VIPS算法 BBM25算法 視覺特征 文本特征 組合特征


【摘要】:在當(dāng)今的互聯(lián)網(wǎng)時(shí)代,Web是信息的重要來源,網(wǎng)頁則是展示信息的重要媒介。網(wǎng)頁傳遞著各種信息,但是其中有大量噪音信息嚴(yán)重影響了 Web信息的自動(dòng)化挖掘和采集。如何準(zhǔn)確的識(shí)別出網(wǎng)頁的主題信息成為了計(jì)算機(jī)科學(xué)的研究熱點(diǎn)。本文對(duì)各種Web頁面主題信息識(shí)別的技術(shù)進(jìn)行了分析和總結(jié),針對(duì)僅利用視覺特征或文本特征來識(shí)別Web頁面主題信息算法的不足,提出了一種基于組合特征的主題塊識(shí)別算法,實(shí)驗(yàn)證明本算法有效的提高了網(wǎng)頁主題信息識(shí)別的準(zhǔn)確率和穩(wěn)定性。本文的主要研究內(nèi)容和貢獻(xiàn)如下:1)實(shí)現(xiàn)并改進(jìn)了 VIPS算法。改進(jìn)了網(wǎng)頁分塊規(guī)則,對(duì)網(wǎng)頁塊尺寸閾值采用了動(dòng)態(tài)調(diào)整的方式來調(diào)整分塊粒度,使得分塊后的網(wǎng)頁塊語義更加完整。2)借鑒BM25算法的思想,提出了計(jì)算網(wǎng)頁塊內(nèi)容與主題相關(guān)性的算法模型BBM25。BBM25以網(wǎng)頁塊為基本單位,從關(guān)鍵詞的權(quán)重、網(wǎng)頁塊中關(guān)鍵詞的詞頻、網(wǎng)頁塊的文本內(nèi)容長度等幾個(gè)方面來考慮。3)提出了基于組合特征的主題塊識(shí)別算法。對(duì)網(wǎng)頁分塊后,本文首先利用SVM根據(jù)網(wǎng)頁塊的視覺特征預(yù)測網(wǎng)頁塊是否為主題塊,然后利用BBM25算法計(jì)算每個(gè)網(wǎng)頁塊內(nèi)容與主題的相關(guān)性權(quán)重值,將權(quán)重值與尋找的最佳閾值進(jìn)行比較從而判斷網(wǎng)頁塊是否為主題塊,最后將這兩種方式相結(jié)合,綜合利用網(wǎng)頁塊的視覺特征和文本特征來判斷其是否為主題塊。通過實(shí)驗(yàn),本文將基于組合特征的主題塊識(shí)別算法和基于視覺特征、基于文本特征的主題塊識(shí)別算法進(jìn)行了對(duì)比,驗(yàn)證了本文提出的基于組合特征識(shí)別主題塊的算法的準(zhǔn)確性和穩(wěn)定性。
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092;TP391.1

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 韓旭;新概念網(wǎng)頁設(shè)計(jì)[J];包裝世界;2000年05期

2 朱松巖;;網(wǎng)頁設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期

3 安琳;;國外網(wǎng)頁信息存檔項(xiàng)目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期

4 蔣桂梅;;網(wǎng)頁設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期

5 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

6 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期

7 王爍;;美國網(wǎng)頁歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期

8 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期

9 何立波;周世波;;網(wǎng)頁設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期

10 秦永平;網(wǎng)頁信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年

2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報(bào);2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年

3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報(bào);2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

5 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年

6 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

7 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

8 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

9 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

10 余偉;基于用戶個(gè)性挖掘的Web社區(qū)營銷研究[D];武漢大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年

2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年

3 張W,

本文編號(hào):1287834


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1287834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶29469***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com