一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法
本文關(guān)鍵詞:一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法
更多相關(guān)文章: 主題爬蟲 OTIE算法 Shark-Search算法 隧道穿越
【摘要】:主題網(wǎng)絡(luò)爬蟲是主題搜索引擎中的一種關(guān)鍵技術(shù),針對OTIE算法參數(shù)考慮不全的問題,提出結(jié)合鏈接和網(wǎng)頁內(nèi)容分析的自適應(yīng)算法,通過結(jié)合網(wǎng)頁鏈接重要性和內(nèi)容相關(guān)性得分得到主題網(wǎng)頁下載優(yōu)先級的綜合評分,同時考慮在爬取主題網(wǎng)頁中的隧道穿越問題。從ODP中選擇主題和種子網(wǎng)頁,將本算法與Best-First算法、Shark-Search算法和OTIE算法進(jìn)行比較。實驗結(jié)果表明,本算法不僅具有明顯較好的查全率,而且具有很好的查準(zhǔn)率。
【作者單位】: 重慶大學(xué)計算機(jī)學(xué)院軟件理論與技術(shù)重慶市重點實驗室;
【關(guān)鍵詞】: 主題爬蟲 OTIE算法 Shark-Search算法 隧道穿越
【基金】:國家自然科學(xué)基金資助項目(61272914)
【分類號】:TP391.3
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)上信息資源在快速膨脹,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1],截至2013年12月,中國網(wǎng)站數(shù)量全年增長52萬個,增長率為19.4%,達(dá)到320萬,而中國網(wǎng)頁數(shù)量同比增長了22.2%,達(dá)到1500億個。為了能夠從這浩
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 曾銘;垂直搜索技術(shù)在社交網(wǎng)站中的應(yīng)用與研究[D];北京郵電大學(xué);2013年
2 羅磊;微博輿情熱點檢測與跟蹤方法研究[D];杭州電子科技大學(xué);2013年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳麒;陳興蜀;朱鍇;王春暉;;基于ODP的上下文主題描述方法[J];電子學(xué)報;2012年11期
2 劉喜文;鄭昌興;王文龍;湯剛強(qiáng);;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期
3 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點關(guān)鍵度排序方法[J];北京郵電大學(xué)學(xué)報;2014年S1期
4 張勝;;譜聚類在圖像識別中的應(yīng)用[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報;2014年02期
5 張喜平;李永樹;劉剛;王蕾;;節(jié)點重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點重要度評估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期
6 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報;2014年08期
7 何鈞雷;;以主題爬蟲視角進(jìn)行數(shù)字資源的建設(shè)探析[J];電子技術(shù)與軟件工程;2014年16期
8 田雪筠;;網(wǎng)絡(luò)競爭情報主題采集技術(shù)研究[J];圖書與情報;2014年05期
9 吳哲;郭宇春;陳常嘉;;基于用戶關(guān)系的在線社會網(wǎng)絡(luò)關(guān)鍵用戶識別算法[J];北京交通大學(xué)學(xué)報;2014年05期
10 仲兆滿;李存華;劉宗田;管燕;;一種基于搜索策略的多主題信息采集方法[J];電子學(xué)報;2014年12期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點關(guān)鍵度排序方法[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
2 紀(jì)雪梅;王芳;;在線社交網(wǎng)絡(luò)用戶情感傳播研究[A];2013中國信息經(jīng)濟(jì)學(xué)會學(xué)術(shù)年會暨博士生論壇論文集[C];2013年
3 譚金波;;Flash資源智能搜索系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[A];全國計算機(jī)輔助教育學(xué)會“計算機(jī)輔助教育軟件開發(fā)與應(yīng)用”研討會論文集[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李雁妮;深網(wǎng)數(shù)據(jù)集成與挖掘關(guān)鍵問題的建模及算法研究[D];西安電子科技大學(xué);2013年
2 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
3 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
4 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
5 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
6 曾雪;在線社交網(wǎng)絡(luò)用戶的分類及采樣研究[D];電子科技大學(xué);2013年
7 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
8 龔家瑜;基于數(shù)據(jù)挖掘的藥物靶標(biāo)發(fā)現(xiàn)方法研究[D];華東理工大學(xué);2013年
9 廉捷;基于用戶特征的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘研究[D];北京交通大學(xué);2014年
10 布凡;文本信息度量研究[D];清華大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 徐東坤;面向互聯(lián)網(wǎng)的構(gòu)件獲取技術(shù)研究[D];大連海事大學(xué);2010年
2 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
3 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學(xué);2013年
4 彭小明;主題爬蟲的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
5 褚宏爽;主題搜索引擎網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
6 劉徐;網(wǎng)頁特征詞典生成模型的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
7 周林云;Web信息采集系統(tǒng)設(shè)計與實現(xiàn)[D];西南交通大學(xué);2013年
8 杜娜;高校DL信息資源管理研究[D];安徽大學(xué);2013年
9 王瑤華;基于變精度粗糙集的網(wǎng)絡(luò)輿情預(yù)警研究[D];武漢理工大學(xué);2013年
10 王芳;面向領(lǐng)域的智能深度搜索引擎的研究[D];北京工商大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱林;王士同;潘永惠;韓斌;;K平面聚類算法的模糊改進(jìn)及其魯棒性研究[J];電子與信息學(xué)報;2008年08期
2 邱立坤;龍志yN;鐘華;程葳;;層次化話題發(fā)現(xiàn)與跟蹤方法及系統(tǒng)實現(xiàn)[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
3 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期
4 郭少友;;自動分類中的文檔表示及其改善方法研究[J];信息技術(shù);2008年08期
5 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期
6 李保利,俞士汶;話題識別與跟蹤研究[J];計算機(jī)工程與應(yīng)用;2003年17期
7 歐陽柳波,李學(xué)勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計算機(jī)工程;2004年13期
8 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計算機(jī)工程;2008年18期
9 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[J];計算機(jī)學(xué)報;2008年04期
10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 楊冠超;微博客熱點話題發(fā)現(xiàn)策略研究[D];浙江大學(xué);2011年
2 孫勝平;中文微博客熱點話題檢測與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
,本文編號:586705
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/586705.html