基于網(wǎng)頁分塊的搜索引擎排序算法改進
[Abstract]:At present, the search engine uses the whole web page as the minimum processing unit to sort, which is easily disturbed by noise information. Aiming at the existing problems, this paper proposes to purify the web pages by dividing the pages into blocks, and then improves the traditional sorting algorithm by using the purification results. Firstly, VIPS is used to divide the web page into several semantic blocks, and then the semantic blocks with high relevance to the topic in the web pages are preserved by setting rules. Finally, these semantic blocks are used to represent the whole web page to participate in the retrieval. To reduce the influence of web noise on the correctness of search engine sorting algorithm, the retrieval quality is improved. Finally, the superiority of the improved algorithm is proved by experiments.
【作者單位】: 浙江工業(yè)大學(xué)信息工程學(xué)院;浙江工業(yè)大學(xué)軟件學(xué)院;
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前2條
1 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期
2 常璐,夏祖奇;搜索引擎的幾種常用排序算法[J];圖書情報工作;2003年06期
【共引文獻】
相關(guān)期刊論文 前3條
1 陳再良;凌力;周強;;dPageRank——一種改進的分布式PageRank算法[J];計算機應(yīng)用;2006年01期
2 文炯;;搜索引擎之競價排名研究[J];江西圖書館學(xué)刊;2006年01期
3 徐金雷;楊曉江;;專業(yè)搜索引擎的排序算法研究[J];現(xiàn)代圖書情報技術(shù);2006年07期
相關(guān)碩士學(xué)位論文 前2條
1 雷赫;互聯(lián)網(wǎng)搜索引擎的傳播學(xué)解讀[D];天津師范大學(xué);2007年
2 馮斌;基于Lucene小型搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2008年
【二級參考文獻】
相關(guān)期刊論文 前1條
1 丁璇,侯漢清,章成志;中文網(wǎng)頁標引源主題表達能力的調(diào)查統(tǒng)計[J];大學(xué)圖書館學(xué)報;2002年06期
【相似文獻】
相關(guān)期刊論文 前10條
1 袁明軒;張選平;蔣宇;趙仲孟;;一種基于同層網(wǎng)頁相似性去除網(wǎng)頁噪音的方法[J];計算機工程;2006年23期
2 徐薇;;Web信息采集中頁面分塊技術(shù)的研究[J];武漢科技學(xué)院學(xué)報;2007年05期
3 李軍杰;劉克勝;趙有才;;基于改進kNN算法的網(wǎng)頁分類系統(tǒng)設(shè)計[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2007年11期
4 龐秋奔;顧平;楊小梅;;基于分塊重要性模型與Xpath的Web信息抽取的研究[J];計算機與現(xiàn)代化;2009年08期
5 余靜;劉萬軍;;基于網(wǎng)頁分塊的主題爬蟲研究[J];計算機與信息技術(shù);2008年10期
6 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
7 章勤;余洋;陶文兵;;圖像搜索中基于網(wǎng)頁分塊的圖像分類研究[J];計算機工程與科學(xué);2007年06期
8 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動提取算法[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2007年10期
9 李烯;徐朝軍;;基于分塊和統(tǒng)計相結(jié)合的新聞?wù)某槿J];情報理論與實踐;2010年01期
10 張春元;;基于CRFs的新聞網(wǎng)頁主題內(nèi)容自動抽取方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期
相關(guān)會議論文 前2條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 陳竹敏;馬軍;韓曉暉;雷景生;;面向主題爬取的多粒度URLs優(yōu)先級計算方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
相關(guān)碩士學(xué)位論文 前8條
1 郭坤銀;基于頁面分塊和鏈接分析的Web圖片檢索研究[D];重慶大學(xué);2009年
2 張超群;基于網(wǎng)頁分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年
3 高樂;基于網(wǎng)頁分塊的主題搜索引擎的研究與實現(xiàn)[D];浙江工業(yè)大學(xué);2009年
4 張曉衛(wèi);Web全文信息檢索系統(tǒng)的研究與實現(xiàn)[D];蘇州大學(xué);2006年
5 馬晉;基于分塊特征抽取的大規(guī)模網(wǎng)頁分類研究[D];吉林大學(xué);2007年
6 李猛;基于網(wǎng)頁塊劃分的Web文本分類算法研究與實現(xiàn)[D];華中科技大學(xué);2007年
7 葛永興;基于貝葉斯算法和后向鏈接的中文網(wǎng)頁組合分類研究[D];東北師范大學(xué);2009年
8 呂學(xué)良;基于視覺信息的上下文廣告關(guān)鍵詞提取算法研究[D];浙江大學(xué);2007年
,本文編號:2173623
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2173623.html