基于模糊SVDD監(jiān)督的PageRank主題爬蟲算法
本文關鍵詞:基于模糊SVDD監(jiān)督的PageRank主題爬蟲算法
【摘要】:主題爬蟲是收集特定領域資源的網絡爬蟲。為了保證主題爬蟲的查準率,提出一種基于模糊SVDD(support vector domain description)監(jiān)督的PageRank爬蟲算法,既考慮網頁間的鏈接關系,又使用合適的分類器監(jiān)督來保證爬蟲與主題不偏離。通過與關鍵詞匹配主題爬蟲、shark-search主題爬蟲、PageRank主題爬蟲、基于SVM預測的主題爬蟲、普通SVDD指導的主題爬蟲進行試驗對比,驗證了該算法具有更高的查準率。
【作者單位】: 上海交通大學自動化系系統(tǒng)控制與信息處理教育部重點實驗室;
【關鍵詞】: 模糊SVDD PageRank 主題爬蟲
【基金】:國家高技術研究發(fā)展計劃項目(2011AA040605)
【分類號】:TP393.092;TP391.3
【正文快照】: 0引言主題搜索引擎是獲取萬維網中特定領域網頁并提供檢索的關鍵技術,它關注用戶關心的特定領域,解決傳統(tǒng)搜索引擎技術查準率低的問題。主題搜索爬蟲按照一定的搜索策略和算法從網絡上下載與主題相關網頁,是主題搜索引擎的基礎與核心。主題爬蟲技術經過多年的發(fā)展,現(xiàn)存在多種
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 楊仁廣;宋宇;孟祥增;;一種改進Shark-Search的多媒體主題搜索算法[J];計算機工程與應用;2010年14期
2 池勇敏;郝泳濤;;分布式主題爬蟲的設計與實現(xiàn)[J];計算機應用與軟件;2010年12期
3 溫泉;丁祥武;;基于主題聚焦模型的PageRank改進算法[J];計算機應用與軟件;2011年03期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 姚瑞虹;張鵬洲;陳志國;;互聯(lián)網音視頻主動搜索算法效率提高的研究[J];廣播與電視技術;2013年10期
2 戴上平;鄭波榮;;基于Tf-Idf和網頁鏈接的PageRank改進算法[J];計算機應用與軟件;2013年05期
3 吳羽萍;楊仁廣;;網絡多媒體主題搜索算法比較研究[J];圖書情報工作;2013年07期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 韓子揚;李貴;李征宇;王鳳英;;基于分布式結構的Deep Web結構化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學學術年會論文集[C];2012年
2 韓子揚;李貴;李征宇;王鳳英;;基于分布式結構的Deep Web結構化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學學術年會論文集(信息科學與工程技術分冊)[C];2012年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 田俊華;基于本體知識庫的教學資源自動采集技術研究[D];南京師范大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前8條
1 陳志剛;網絡Flash資源爬行器的設計與實現(xiàn)[D];山東師范大學;2011年
2 鄧丹君;基于Lucene的垂直搜索引擎關鍵技術研究[D];武漢理工大學;2011年
3 王樺;基于廣度優(yōu)先的主題爬蟲的設計與實現(xiàn)[D];復旦大學;2011年
4 任海果;基于主題事件的輿情分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2012年
5 蔣超;面向人物簡介的主題爬蟲設計與實現(xiàn)[D];吉林大學;2012年
6 張行;木材垂直搜索引擎設計與實現(xiàn)[D];北京林業(yè)大學;2012年
7 劉娟娟;服務爬蟲引擎中服務識別與抓取功能的設計與實現(xiàn)[D];北京郵電大學;2013年
8 吳崇正;基于MapReduce的分布式搜索引擎研究[D];蘭州理工大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 吳家麒;譚永基;;PageRank算法的優(yōu)化和改進[J];計算機工程與應用;2009年16期
2 錢榕;徐新華;鄭瑩;楊炳儒;;智能專題化信息搜集Crawler[J];計算機工程;2006年03期
3 白鶴;湯迪斌;王勁林;;分布式多主題網絡爬蟲系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2009年19期
4 劉金紅;陸余良;;主題網絡爬蟲研究綜述[J];計算機應用研究;2007年10期
5 蘇祺;項錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學學報(理學版);2006年03期
6 陳軍;陳竹敏;;基于網頁分塊的Shark-Search算法[J];山東大學學報(理學版);2007年09期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張彬;蔣濤;;鏈接信息在Web內容分類中的應用研究[J];計算機與數(shù)字工程;2007年10期
2 嚴宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關鍵技術的探討[J];中國科技信息;2007年05期
3 田甜;倪林;錢功偉;;一種結合社區(qū)發(fā)現(xiàn)的網頁排序算法[J];計算機工程與應用;2007年12期
4 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計算機工程與設計;2010年14期
5 蔣宗禮;徐學可;李帥;;一種基于超鏈接引導的主題搜索的主題敏感爬行方法[J];計算機應用;2008年04期
6 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];計算機應用與軟件;2008年09期
7 楊炳儒,李巖,陳新中,王霞;Web結構挖掘[J];計算機工程;2003年20期
8 付真真;陸偉;;基于關鍵詞的搜索引擎優(yōu)化策略及效果分析[J];現(xiàn)代圖書情報技術;2009年06期
9 張亞男;王鑫;;基于內容管理的網站構建系統(tǒng)的研究[J];硅谷;2010年23期
10 陳謙;;PageRank算法在孤立點檢測中的應用[J];微型機與應用;2010年24期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
2 朱思俞;石鋒;;不定人連續(xù)漢語音的四聲識別[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
3 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學會第七屆學術交流會論文集(上卷)[C];2004年
4 徐蔚然;于武貴;郭軍;;基于統(tǒng)計方法的混排文字切分與分類[A];第八屆全國漢字識別學術會議論文集[C];2002年
5 雷蕾;吳乃君;劉鵬;劉蘭娟;;靈敏度分析:分類器中的缺失數(shù)據(jù)[A];第11屆海峽兩岸信息管理發(fā)展策略研討會論文集[C];2005年
6 陳穎穎;張雁軍;賈鑫;;通信信號調制識別方法[A];第一屆中國高校通信類院系學術研討會論文集[C];2007年
7 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結合的蛋白質名識別[A];大連理工大學生物醫(yī)學工程學術論文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黃,;張琳;王昱清;楊勤;陳華富;;支持向量機探測腦功能活動[A];中國生物醫(yī)學工程進展——2007中國生物醫(yī)學工程聯(lián)合學術年會論文集(下冊)[C];2007年
9 沈錢波;何加銘;;連筆手寫識別搜索算法研究[A];浙江省電子學會2008年學術年會論文集[C];2008年
10 葉強;李一軍;;基于支持度-顯著度的關聯(lián)規(guī)則分類方法研究[A];管理科學與系統(tǒng)科學研究新進展——第8屆全國青年管理科學與系統(tǒng)科學學術會議論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
2 楊娟 葉傳龍;網上夫妻《吵架公約》受女性青睞[N];中國婦女報;2009年
3 本報記者 聶國春;在線求醫(yī)應提防網絡“張悟本”[N];中國消費者報;2010年
4 本報記者 陳磊;移動搜索將怎樣引領便利生活?[N];科技日報;2006年
5 本報記者 ?》邋鍖嵙曈浾 吳昊;網絡軍迷:一個需要關注的特殊群體[N];中國國防報;2008年
6 本報記者 馬文方;匠心在胸[N];中國計算機報;2008年
7 本報記者 許盼;把軟件真正用起來[N];中國電力報;2009年
8 本報記者 胡靜;中介力挺“赴港生子”套餐[N];消費日報;2010年
9 楊平;Google本地搜索:很好,,但還不夠[N];中國計算機報;2005年
10 CPW 張戈;Aperto PacketMAX系列可同時服務2000個用戶[N];電腦商報;2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王U
本文編號:993821
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/993821.html