天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁分塊的搜索引擎排序算法改進

發(fā)布時間:2018-08-09 09:12
【摘要】:目前,搜索引擎以整張網(wǎng)頁作為最小處理單位進行排序處理,容易受到噪音信息的干擾.針對存在的問題,提出用網(wǎng)頁分塊對網(wǎng)頁凈化,進而利用凈化結(jié)果改進傳統(tǒng)的排序算法.首先,用基于視覺的網(wǎng)頁分塊算法VIPS將網(wǎng)頁分成若干語義塊,然后通過設(shè)定規(guī)則保留網(wǎng)頁中與主題相關(guān)度高的語義塊,最后用這些語義塊代表整個網(wǎng)頁參與檢索,減少網(wǎng)頁噪音對搜索引擎排序算法正確性的影響,實現(xiàn)了檢索質(zhì)量的改進.最后通過實驗證明了改進算法的優(yōu)越性.
[Abstract]:At present, the search engine uses the whole web page as the minimum processing unit to sort, which is easily disturbed by noise information. Aiming at the existing problems, this paper proposes to purify the web pages by dividing the pages into blocks, and then improves the traditional sorting algorithm by using the purification results. Firstly, VIPS is used to divide the web page into several semantic blocks, and then the semantic blocks with high relevance to the topic in the web pages are preserved by setting rules. Finally, these semantic blocks are used to represent the whole web page to participate in the retrieval. To reduce the influence of web noise on the correctness of search engine sorting algorithm, the retrieval quality is improved. Finally, the superiority of the improved algorithm is proved by experiments.
【作者單位】: 浙江工業(yè)大學(xué)信息工程學(xué)院;浙江工業(yè)大學(xué)軟件學(xué)院;
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前2條

1 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期

2 常璐,夏祖奇;搜索引擎的幾種常用排序算法[J];圖書情報工作;2003年06期

【共引文獻】

相關(guān)期刊論文 前3條

1 陳再良;凌力;周強;;dPageRank——一種改進的分布式PageRank算法[J];計算機應(yīng)用;2006年01期

2 文炯;;搜索引擎之競價排名研究[J];江西圖書館學(xué)刊;2006年01期

3 徐金雷;楊曉江;;專業(yè)搜索引擎的排序算法研究[J];現(xiàn)代圖書情報技術(shù);2006年07期

相關(guān)碩士學(xué)位論文 前2條

1 雷赫;互聯(lián)網(wǎng)搜索引擎的傳播學(xué)解讀[D];天津師范大學(xué);2007年

2 馮斌;基于Lucene小型搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2008年

【二級參考文獻】

相關(guān)期刊論文 前1條

1 丁璇,侯漢清,章成志;中文網(wǎng)頁標引源主題表達能力的調(diào)查統(tǒng)計[J];大學(xué)圖書館學(xué)報;2002年06期

【相似文獻】

相關(guān)期刊論文 前10條

1 袁明軒;張選平;蔣宇;趙仲孟;;一種基于同層網(wǎng)頁相似性去除網(wǎng)頁噪音的方法[J];計算機工程;2006年23期

2 徐薇;;Web信息采集中頁面分塊技術(shù)的研究[J];武漢科技學(xué)院學(xué)報;2007年05期

3 李軍杰;劉克勝;趙有才;;基于改進kNN算法的網(wǎng)頁分類系統(tǒng)設(shè)計[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2007年11期

4 龐秋奔;顧平;楊小梅;;基于分塊重要性模型與Xpath的Web信息抽取的研究[J];計算機與現(xiàn)代化;2009年08期

5 余靜;劉萬軍;;基于網(wǎng)頁分塊的主題爬蟲研究[J];計算機與信息技術(shù);2008年10期

6 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期

7 章勤;余洋;陶文兵;;圖像搜索中基于網(wǎng)頁分塊的圖像分類研究[J];計算機工程與科學(xué);2007年06期

8 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動提取算法[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2007年10期

9 李烯;徐朝軍;;基于分塊和統(tǒng)計相結(jié)合的新聞?wù)某槿J];情報理論與實踐;2010年01期

10 張春元;;基于CRFs的新聞網(wǎng)頁主題內(nèi)容自動抽取方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期

相關(guān)會議論文 前2條

1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年

2 陳竹敏;馬軍;韓曉暉;雷景生;;面向主題爬取的多粒度URLs優(yōu)先級計算方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

相關(guān)碩士學(xué)位論文 前8條

1 郭坤銀;基于頁面分塊和鏈接分析的Web圖片檢索研究[D];重慶大學(xué);2009年

2 張超群;基于網(wǎng)頁分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年

3 高樂;基于網(wǎng)頁分塊的主題搜索引擎的研究與實現(xiàn)[D];浙江工業(yè)大學(xué);2009年

4 張曉衛(wèi);Web全文信息檢索系統(tǒng)的研究與實現(xiàn)[D];蘇州大學(xué);2006年

5 馬晉;基于分塊特征抽取的大規(guī)模網(wǎng)頁分類研究[D];吉林大學(xué);2007年

6 李猛;基于網(wǎng)頁塊劃分的Web文本分類算法研究與實現(xiàn)[D];華中科技大學(xué);2007年

7 葛永興;基于貝葉斯算法和后向鏈接的中文網(wǎng)頁組合分類研究[D];東北師范大學(xué);2009年

8 呂學(xué)良;基于視覺信息的上下文廣告關(guān)鍵詞提取算法研究[D];浙江大學(xué);2007年

,

本文編號:2173623

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2173623.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4abad***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com