天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于PageRank與Bagging的主題爬蟲研究

發(fā)布時間:2018-03-21 07:16

  本文選題:主題爬蟲 切入點(diǎn):搜索策略 出處:《計算機(jī)工程與設(shè)計》2010年14期  論文類型:期刊論文


【摘要】:為克服主題爬蟲主題漂移現(xiàn)象,提高搜索引擎的查準(zhǔn)率和查全率,提出了一個基于PageRank算法與Bagging算法的主題爬蟲設(shè)計方法。將主題爬蟲系統(tǒng)分為爬蟲爬行模塊和主題相關(guān)性分析模塊。利用一種改進(jìn)的PageRank算法改善了爬蟲的搜索策略,進(jìn)行網(wǎng)頁遍歷與抓取。用向量空間模型表示網(wǎng)頁主題,使用Bagging算法構(gòu)造網(wǎng)頁主題分類器進(jìn)行主題相關(guān)性分析,過濾與主題無關(guān)網(wǎng)頁。實(shí)驗(yàn)結(jié)果表明,該方法在網(wǎng)頁抓取的性能上和主題網(wǎng)頁的查準(zhǔn)率上都取得較好的效果。
[Abstract]:In order to overcome the phenomenon of topic crawler theme drift and improve the precision and recall of search engine, A topic crawler design method based on PageRank algorithm and Bagging algorithm is proposed. The subject crawler system is divided into crawler crawler crawler module and topic correlation analysis module. An improved PageRank algorithm is used to improve the crawler search strategy. Using vector space model to express the topic of the web page, using the Bagging algorithm to construct the theme classifier for the theme correlation analysis, filtering the topic-independent pages. The experimental results show that, This method achieves good results in the performance of web crawling and the precision rate of subject pages.
【作者單位】: 西安建筑科技大學(xué)信息與控制工程學(xué)院;西北大學(xué)信息科學(xué)與技術(shù)學(xué)院;北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(60573179)
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 沈?qū)W華,周志華,吳建鑫,陳兆乾;Boosting和Bagging綜述[J];計算機(jī)工程與應(yīng)用;2000年12期

2 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計算機(jī)應(yīng)用;2008年04期

3 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報;2006年09期

4 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報;2003年03期

5 王冬;雷景生;李壯;;基于PageRank的頁面排序改進(jìn)算法[J];計算機(jī)工程與設(shè)計;2008年22期

6 黃德才;戚華春;錢能;;基于主題相似度模型的TS-PageRank算法[J];小型微型計算機(jī)系統(tǒng);2007年03期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李文斌;劉椿年;鐘寧;;基于兩階段集成學(xué)習(xí)的分類器集成[J];北京工業(yè)大學(xué)學(xué)報;2010年03期

2 文翰;肖南峰;;基于特征分布的半監(jiān)督分類[J];北京工業(yè)大學(xué)學(xué)報;2012年01期

3 周世斌;白敬華;劉玉樹;;統(tǒng)計流形上基于核近鄰算法的文本分類研究[J];北京理工大學(xué)學(xué)報;2010年03期

4 陳爽;陳福;杜天蒼;;一種啟發(fā)式網(wǎng)絡(luò)信息采集系統(tǒng)設(shè)計與實(shí)現(xiàn)[J];北京石油化工學(xué)院學(xué)報;2007年04期

5 黃文良;李石堅;劉菊新;徐從富;;一個大規(guī)模垃圾短信實(shí)時過濾系統(tǒng)[J];北京郵電大學(xué)學(xué)報;2008年03期

6 柯麗;王明文;何世柱;黎佳;羅遠(yuǎn)勝;;基于頻率共現(xiàn)熵的跨語言網(wǎng)頁自動分類研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2011年03期

7 曾立梅;;基于文本數(shù)據(jù)挖掘的碩士論文分類技術(shù)[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2010年05期

8 黎孟雄;;基于移動Agent的教學(xué)資源智能采集系統(tǒng)的研究[J];長春大學(xué)學(xué)報;2010年12期

9 陳可華;;文本自動分類新探究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年04期

10 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應(yīng)用[J];長春理工大學(xué)學(xué)報(自然科學(xué)版);2010年01期

相關(guān)會議論文 前10條

1 杜方鍵;楊宏暉;;K均值聚類優(yōu)化集成學(xué)習(xí)[A];2011'中國西部聲學(xué)學(xué)術(shù)交流會論文集[C];2011年

2 眭新光;沈蕾;燕繼坤;朱中梁;;基于Adaboost的文本隱寫分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

3 黃文良;李石堅;劉菊新;徐從富;;大規(guī)模垃圾短信實(shí)時過濾系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王輝;左萬利;;利用質(zhì)心向量構(gòu)建增量式分類器(英文)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

6 劉健;張維明;;基于文本概念序列的非線性分析方法初探[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

7 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 ;Text Feature Automatic Selection Algorithm Based on Cloud Model[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

9 張愛華;靖紅芳;王斌;徐燕;;文本分類中特征權(quán)重因子的作用研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

10 朱振方;劉培玉;;求解中文文本信息過濾的自適應(yīng)遺傳算法及收斂性分析[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年

2 張曉艷;新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年

3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

4 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年

5 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年

6 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年

7 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習(xí)文本分類方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年

8 孫珂;大規(guī)模文檔標(biāo)簽自動標(biāo)注技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

9 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年

10 朱振方;基于微粒群和遺傳優(yōu)化的文本過濾關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年

2 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年

3 左維松;規(guī)則和統(tǒng)計相結(jié)合的篇章情感傾向性分析研究[D];鄭州大學(xué);2010年

4 劉國峰;數(shù)據(jù)模板匹配研究及在社保審計中的應(yīng)用[D];哈爾濱工程大學(xué);2010年

5 李曉光;數(shù)據(jù)挖掘技術(shù)在高校招生和教務(wù)管理中的應(yīng)用[D];哈爾濱工程大學(xué);2010年

6 徐旭;基于決策樹的Web應(yīng)用系統(tǒng)個性化身份驗(yàn)證研究[D];合肥工業(yè)大學(xué);2010年

7 李瓊瓊;網(wǎng)絡(luò)文本自動分類器的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2010年

8 蘇保君;在線組合分類器應(yīng)用于大規(guī)模垃圾郵件過濾的研究[D];浙江大學(xué);2010年

9 趙素娟;基于互聯(lián)網(wǎng)的人物簡歷問答系統(tǒng)的研究與設(shè)計[D];東北財經(jīng)大學(xué);2010年

10 袁路妍;鎢層文本自動分類技術(shù)的研究與應(yīng)用[D];東華大學(xué);2011年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國科學(xué)E輯:技術(shù)科學(xué);2001年04期

2 楊沛,鄭啟倫,彭宏;Inherit/Feedback:一種新的Web主題挖掘方法[J];計算機(jī)研究與發(fā)展;2004年05期

3 王建會,王洪偉,申展,胡運(yùn)發(fā);一種實(shí)用高效的文本分類算法[J];計算機(jī)研究與發(fā)展;2005年01期

4 李榮陸,王建會,陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計算機(jī)研究與發(fā)展;2005年01期

5 黃德才;戚華春;;PageRank算法研究[J];計算機(jī)工程;2006年04期

6 陳偉柱,陳英,吳燕;基于分類技術(shù)的搜索引擎排名算法——CategoryRank[J];計算機(jī)應(yīng)用;2005年05期

7 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機(jī)應(yīng)用研究;2007年06期

8 陳毅松,汪國平,董士海;基于支持向量機(jī)的漸進(jìn)直推式分類學(xué)習(xí)算法[J];軟件學(xué)報;2003年03期

9 王曉宇,周傲英;萬維網(wǎng)的鏈接結(jié)構(gòu)分析及其應(yīng)用綜述[J];軟件學(xué)報;2003年10期

10 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報;2003年03期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊仁廣;孟祥增;;基于Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)的設(shè)計[J];中國教育信息化;2008年02期

2 高靈霞;;基于主題爬蟲的個性化搜索引擎技術(shù)分析[J];電腦知識與技術(shù);2009年32期

3 劉漢興;劉財興;;主題爬蟲的搜索策略研究[J];計算機(jī)工程與設(shè)計;2008年12期

4 柴嘉斌;李廣華;李長春;;主題爬蟲搜索策略的研究[J];科技信息;2011年12期

5 楊炳儒,李巖,陳新中,王霞;Web結(jié)構(gòu)挖掘[J];計算機(jī)工程;2003年20期

6 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];計算機(jī)應(yīng)用與軟件;2008年09期

7 付真真;陸偉;;基于關(guān)鍵詞的搜索引擎優(yōu)化策略及效果分析[J];現(xiàn)代圖書情報技術(shù);2009年06期

8 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識與技術(shù);2010年15期

9 張亞男;王鑫;;基于內(nèi)容管理的網(wǎng)站構(gòu)建系統(tǒng)的研究[J];硅谷;2010年23期

10 陳謙;;PageRank算法在孤立點(diǎn)檢測中的應(yīng)用[J];微型機(jī)與應(yīng)用;2010年24期

相關(guān)會議論文 前10條

1 藺繼國;徐錫山;;一種基于用戶點(diǎn)擊數(shù)據(jù)的個性化PageRank算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

2 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

3 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡(luò)和PageRank的Nbest重排序[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

4 劉艷霞;范明;;Bagging基于eEP的分類器分類稀有類[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年

5 汪秉宏;;網(wǎng)絡(luò)交通流中的路由搜索策略及相變[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年

6 何偉;李慶忠;鄭永清;崔立真;;社區(qū)云計算環(huán)境中的一種數(shù)據(jù)分布及搜索策略[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

7 王典樂;任照峰;牟靈泉;;基于并行計算和網(wǎng)絡(luò)應(yīng)用的暖通空調(diào)CAD搜索策略應(yīng)用探討[A];全國暖通空調(diào)制冷2002年學(xué)術(shù)年會論文集[C];2002年

8 李慧敏;鄔群勇;王欽敏;;Robot技術(shù)在空間信息服務(wù)搜索中的應(yīng)用研究[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年

9 劉建毅;王菁華;王樅;;基于語言網(wǎng)絡(luò)的關(guān)鍵詞抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

10 杜方鍵;楊宏暉;;K均值聚類優(yōu)化集成學(xué)習(xí)[A];2011'中國西部聲學(xué)學(xué)術(shù)交流會論文集[C];2011年

相關(guān)重要報紙文章 前10條

1 本報記者 馬文方;匠心在胸[N];中國計算機(jī)報;2008年

2 喻寧;群雄逐鹿搜索經(jīng)濟(jì)[N];經(jīng)理日報;2004年

3 內(nèi)蒙古建設(shè)銀行包頭分行 薛志強(qiáng);體會寬度優(yōu)先搜索[N];網(wǎng)絡(luò)世界;2002年

4 章森 王偉;搜索引擎的工作機(jī)制[N];計算機(jī)世界;2006年

5 文/大海;微軟亞研院“微妙轉(zhuǎn)向”[N];計算機(jī)世界;2004年

6 壽棟邋芯語;揭開企業(yè)搜索的技術(shù)面紗[N];計算機(jī)世界;2008年

7 中科院計算所 羅杰文;P2P搜索技術(shù)研究與挑戰(zhàn)[N];計算機(jī)世界;2006年

8 本報記者 于翔;雅虎重組能否自我拯救?[N];網(wǎng)絡(luò)世界;2008年

9 復(fù)旦大學(xué)國際政治系博士 沈逸;谷歌的權(quán)力與生意[N];東方早報;2010年

10 搜索引擎9238;搜索專家談技巧[N];中國計算機(jī)報;2001年

相關(guān)博士學(xué)位論文 前10條

1 梅建新;基于支持向量機(jī)的高分辨率遙感影像的目標(biāo)檢測研究[D];武漢大學(xué);2004年

2 王菁華;文本中知識的獲取[D];北京郵電大學(xué);2008年

3 顏力;飛行器多學(xué)科設(shè)計優(yōu)化若干關(guān)鍵技術(shù)的研究與應(yīng)用[D];國防科學(xué)技術(shù)大學(xué);2006年

4 趙勇;衛(wèi)星總體多學(xué)科設(shè)計優(yōu)化理論與應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2006年

5 楊光;基于大型科學(xué)儀器工作站的屏幕圖像識別與壓縮技術(shù)研究[D];吉林大學(xué);2011年

6 張焱;地面背景下成像目標(biāo)跟蹤技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年

7 王平;非結(jié)構(gòu)化對等網(wǎng)絡(luò)中的信任機(jī)制及搜索策略研究[D];西南大學(xué);2010年

8 高偉;對等網(wǎng)環(huán)境下搜索策略與信任機(jī)制研究[D];哈爾濱工程大學(xué);2011年

9 高偉;對等網(wǎng)環(huán)境下搜索策略與信任機(jī)制研究[D];哈爾濱工程大學(xué);2011年

10 李方濤;基于產(chǎn)品評論的情感分析研究[D];清華大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年

2 劉先明;基于鏈接分析的PageRank排序算法的改進(jìn)研究[D];湖北工業(yè)大學(xué);2010年

3 林捷;主題網(wǎng)絡(luò)爬蟲的研究和實(shí)現(xiàn)[D];武漢理工大學(xué);2011年

4 張玲;智能信息采集搜索策略研究[D];湖南大學(xué);2004年

5 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

6 郭謝;基于Web Community識別的專業(yè)搜索引擎研究[D];浙江大學(xué);2006年

7 楊軍;基于塊匹配的視頻圖像運(yùn)動估計技術(shù)研究[D];湖南大學(xué);2007年

8 劉星;搜索引擎的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2007年

9 姜sバ,

本文編號:1642818


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1642818.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶667bd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com