一種基于語義分析的主題爬蟲算法
本文選題:主題爬蟲 + 子空間; 參考:《計算機(jī)工程與科學(xué)》2010年09期
【摘要】:海量網(wǎng)頁的存在及其量的急速增長使得通用搜索引擎難以為面向主題或領(lǐng)域的查詢提供滿意結(jié)果。本文研究的主題爬蟲致力于收集主題相關(guān)信息,達(dá)到極大降低網(wǎng)頁處理量的目的。它通過評價網(wǎng)頁的主題相關(guān)度,并優(yōu)先爬取相關(guān)度較高的網(wǎng)頁。利用一種基于子空間的語義分析技術(shù),并結(jié)合貝葉斯以及支持向量機(jī),設(shè)計并實(shí)現(xiàn)了一個高效的主題爬蟲。實(shí)驗(yàn)表明,此算法具有很好的準(zhǔn)確性和高效性。
[Abstract]:The existence and rapid growth of massive web pages make it difficult for general search engines to provide satisfactory results for subject-oriented or domain-oriented queries. The topic crawler studied in this paper is dedicated to collecting theme-related information in order to greatly reduce the amount of web page processing. It evaluates the theme relevance of the web pages, and preferentially crawls the pages with higher relevance. A highly efficient subject crawler is designed and implemented by using a subspace-based semantic analysis technique combined with Bayesian and support vector machines. Experiments show that the algorithm has good accuracy and high efficiency.
【作者單位】: 北京工業(yè)大學(xué)計算機(jī)學(xué)院;
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 傅向華,馮博琴,馬兆豐,何明;可在線增量自學(xué)習(xí)的聚焦爬行方法[J];西安交通大學(xué)學(xué)報;2004年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前3條
1 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期
2 傅向華;馮博琴;;一種支持復(fù)雜查詢的有組織P2P搜索方法[J];小型微型計算機(jī)系統(tǒng);2006年03期
3 傅向華;馮博琴;;主題驅(qū)動的P2P分布式信息搜索機(jī)制研究[J];小型微型計算機(jī)系統(tǒng);2006年04期
相關(guān)碩士學(xué)位論文 前2條
1 魏霞;面向網(wǎng)絡(luò)教育的學(xué)習(xí)評價依據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D];浙江工業(yè)大學(xué);2007年
2 謝德輝;面向刑偵網(wǎng)頁的信息抽取與主題爬蟲應(yīng)用研究[D];大連理工大學(xué);2007年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 宮秀軍,史忠植;基于Bayes潛在語義模型的半監(jiān)督Web挖掘[J];軟件學(xué)報;2002年08期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 付淇;李正凡;;基于CLIQUE的聚類算法研究[J];華東交通大學(xué)學(xué)報;2006年05期
2 陳慧萍;王煜;王建東;;子空間聚類算法的研究新進(jìn)展[J];計算機(jī)仿真;2007年03期
3 姜文瀚;周曉飛;楊靜宇;;子空間樣本選擇及其支持向量機(jī)人臉識別應(yīng)用[J];計算機(jī)工程與應(yīng)用;2007年20期
4 周紅福;宮學(xué)慶;鄭凱;周傲英;;基于高維空間的在線高效子空間Skyline算法——CSky[J];計算機(jī)學(xué)報;2007年08期
5 葛凌云;張繼福;蔡江輝;;基于微粒群和子空間的離群數(shù)據(jù)挖掘算法研究[J];系統(tǒng)仿真學(xué)報;2009年07期
6 張強(qiáng);吳騰飛;楊穎;;基于候選對象裁剪的密度子空間聚類[J];天津大學(xué)學(xué)報;2010年07期
7 廖海斌;徐洪章;;基于鑒別主成份分析的基因表達(dá)數(shù)據(jù)特征提取[J];燕山大學(xué)學(xué)報;2010年05期
8 王慶軍;張汝波;;基于Log-Gabor和正交等度規(guī)映射的人臉識別[J];計算機(jī)科學(xué);2011年02期
9 陳立珍;崔國勤;李卓;;基于子空間增量學(xué)習(xí)的視頻中人臉圖像檢索[J];計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報;2007年09期
10 李霞;徐樹維;;子空間聚類改進(jìn)算法研究綜述[J];計算機(jī)仿真;2010年05期
相關(guān)會議論文 前6條
1 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實(shí)現(xiàn)[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
2 任海果;張淼;;基于站內(nèi)搜索的分布式主題爬蟲的研究與設(shè)計[A];2011年亞太智能電網(wǎng)與信息工程學(xué)術(shù)會議論文集[C];2011年
3 馬帥;吳飛;楊易;邵健;;基于稀疏非負(fù)矩陣分解的圖像檢索[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【oral】[C];2011年
4 仝明磊;韓紅;;隨機(jī)字典的粒子濾波視頻跟蹤[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【oral】[C];2011年
5 莊連生;高浩淵;劉超;俞能海;;非負(fù)稀疏局部線性編碼[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【oral】[C];2011年
6 呂前行;周治平;紀(jì)志成;;基于小波包和神經(jīng)網(wǎng)絡(luò)的虹膜圖像分類方法[A];第二十六屆中國控制會議論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 周紅福;基于索引的Skyline算法研究[D];復(fù)旦大學(xué);2007年
2 孫圣力;數(shù)據(jù)流上Skyline查詢處理算法研究[D];復(fù)旦大學(xué);2008年
3 黃震華;子空間SKYLINE查詢?nèi)舾申P(guān)鍵問題的研究[D];復(fù)旦大學(xué);2008年
4 王述云;數(shù)據(jù)流頻繁項(xiàng)挖掘與聚類分析的研究[D];復(fù)旦大學(xué);2008年
5 孔萬增;基于學(xué)習(xí)的人臉識別研究[D];浙江大學(xué);2008年
6 賀玲;面向大規(guī)模圖像庫的層次化索引機(jī)制研究[D];國防科學(xué)技術(shù)大學(xué);2006年
7 王建會;中文信息處理中若干關(guān)鍵技術(shù)的研究[D];復(fù)旦大學(xué);2004年
8 楊波;圖驅(qū)動的無監(jiān)督降維和判別子空間學(xué)習(xí)研究及其應(yīng)用[D];南京航空航天大學(xué);2010年
9 李學(xué)勇;金屬標(biāo)牌壓印凹凸字符的特征提取和識別方法研究[D];山東大學(xué);2008年
10 許丹;輻射源指紋機(jī)理及識別方法研究[D];國防科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 蘇進(jìn);一種分層聚類模型及其在電信行業(yè)的應(yīng)用研究[D];合肥工業(yè)大學(xué);2005年
2 王靜;基于貝葉斯的人臉識別[D];鄭州大學(xué);2006年
3 譚坤;快速子空間追蹤算法研究[D];電子科技大學(xué);2010年
4 張東波;基于非負(fù)矩陣分解的基因數(shù)據(jù)子空間分類研究[D];西安電子科技大學(xué);2005年
5 王洪;基于子空間的手寫字符集成識別研究與應(yīng)用[D];重慶大學(xué);2003年
6 梁鵬;基于子空間的人臉圖像處理與識別方法研究[D];南京航空航天大學(xué);2002年
7 杜育林;基于信息熵的高維分類型數(shù)據(jù)子空間聚類算法研究[D];汕頭大學(xué);2011年
8 黃杰;KNNModel算法的改進(jìn)及其應(yīng)用[D];福建師范大學(xué);2011年
9 王斐;基于增量反饋和自適應(yīng)機(jī)制的主題爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];南京理工大學(xué);2005年
10 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年
,本文編號:1901861
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1901861.html