基于SVM的主題爬蟲(chóng)技術(shù)研究
本文關(guān)鍵詞:基于SVM的主題爬蟲(chóng)技術(shù)研究
更多相關(guān)文章: SVM 主題爬蟲(chóng) 爬取策略 HITS
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)海量和多元化的趨勢(shì)。如何為互聯(lián)網(wǎng)用戶(hù)快速、準(zhǔn)確地提取其所需信息,已成為搜索引擎面臨的首要問(wèn)題。傳統(tǒng)的通用搜索引擎雖然能夠在較大的信息范圍內(nèi)獲取目標(biāo),但在某些特定領(lǐng)域無(wú)法給用戶(hù)提供專(zhuān)業(yè)而深入的信息。提出基于SVM分類(lèi)的主題爬蟲(chóng)技術(shù),其將基于文字內(nèi)容和部分鏈接信息的主題相關(guān)度預(yù)測(cè)算法、SVM分類(lèi)算法和HITS算法相結(jié)合,解決了特定信息檢索的難題。實(shí)驗(yàn)結(jié)果表明,使用基于SVM分類(lèi)算法的爬取策略,能夠較好地區(qū)分主題相關(guān)網(wǎng)頁(yè)和不相關(guān)網(wǎng)頁(yè),提高了主題相關(guān)網(wǎng)頁(yè)的收獲率和召回率,進(jìn)而提高了搜索引擎的檢索效率。
【作者單位】: 軍工保密資格審查認(rèn)證中心實(shí)驗(yàn)室;哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: SVM 主題爬蟲(chóng) 爬取策略 HITS
【分類(lèi)號(hào)】:TP391.3;TP393.092
【正文快照】: 到稿日期:2014-03-03返修日期:2014-05-251引言隨著互聯(lián)網(wǎng)的迅速發(fā)展和日益普及,網(wǎng)絡(luò)信息平臺(tái)所能提供的內(nèi)容越發(fā)豐富多彩,用戶(hù)在搜索所需信息時(shí)面臨搜索難度增加及信息篩選所需消耗的大量時(shí)間和精力[1]也隨之而來(lái)。搜索引擎的出現(xiàn)解決了海量信息檢索的難題[2]。搜索引擎通過(guò)
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計(jì)算機(jī)科學(xué);2011年S1期
2 黃仁;王良偉;;基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J];計(jì)算機(jī)應(yīng)用研究;2013年08期
3 張憲超;徐雯;高亮;梁文新;;一種結(jié)合文本和鏈接分析的局部Web社區(qū)識(shí)別技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2012年11期
4 蔣華榮;郁雪;;應(yīng)用遺傳算法優(yōu)化子空間的SVM分類(lèi)算法[J];計(jì)算機(jī)科學(xué);2013年11期
5 許笑;張偉哲;張宏莉;方濱興;;廣域網(wǎng)分布式Web爬蟲(chóng)[J];軟件學(xué)報(bào);2010年05期
6 張偉哲;張宏莉;許笑;何慧;;分布式搜索引擎系統(tǒng)效能建模與評(píng)價(jià)[J];軟件學(xué)報(bào);2012年02期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 于海寧;張宏莉;方濱興;余翔湛;;物聯(lián)網(wǎng)中物理實(shí)體搜索服務(wù)的研究[J];電信科學(xué);2012年10期
2 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁(yè)排序算法研究與實(shí)現(xiàn)[J];桂林電子科技大學(xué)學(xué)報(bào);2013年02期
3 李更生;盧罡;;基于時(shí)間反饋和分類(lèi)技術(shù)的PageRank改進(jìn)算法[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期
4 陳平華;周鵬;;一種應(yīng)用于噪聲點(diǎn)分布密集環(huán)境下的噪聲點(diǎn)識(shí)別算法[J];廣東工業(yè)大學(xué)學(xué)報(bào);2014年03期
5 龐紅美;劉宏志;;基于PageRank算法的信息工程安全監(jiān)理風(fēng)險(xiǎn)評(píng)估研究[J];計(jì)算機(jī)安全;2014年08期
6 方樹(shù)峰;;基于用戶(hù)反饋的PageRank改進(jìn)算法[J];計(jì)算技術(shù)與自動(dòng)化;2012年01期
7 吳陳鶴;杜友田;蘇暢;;有限節(jié)點(diǎn)驅(qū)動(dòng)的微博社會(huì)網(wǎng)絡(luò)話(huà)題推薦方法[J];計(jì)算機(jī)工程與應(yīng)用;2013年15期
8 羅文超;劉國(guó)棟;楊海燕;;SIFT和改進(jìn)的RANSAC算法在圖像配準(zhǔn)中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年15期
9 王麗娟;郝志峰;蔡瑞初;溫雯;;基于實(shí)數(shù)值鏈接分析的ESSC融合算法[J];計(jì)算機(jī)應(yīng)用研究;2014年05期
10 黃志敏;曾學(xué)文;陳君;;一種基于Kademlia的全分布式爬蟲(chóng)集群方法[J];計(jì)算機(jī)科學(xué);2014年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 韓子揚(yáng);李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2012年
2 韓子揚(yáng);李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)論文集(信息科學(xué)與工程技術(shù)分冊(cè))[C];2012年
3 楊震;殷俊;;移動(dòng)互聯(lián)網(wǎng)環(huán)境下適合運(yùn)營(yíng)商網(wǎng)絡(luò)基礎(chǔ)能力的搜索引擎設(shè)計(jì)研究[A];2012全國(guó)無(wú)線(xiàn)及移動(dòng)通信學(xué)術(shù)大會(huì)論文集(下)[C];2012年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 李春山;面向社會(huì)化媒體內(nèi)容的若干聚類(lèi)算法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 趙學(xué)華;統(tǒng)計(jì)網(wǎng)絡(luò)模型若干關(guān)鍵問(wèn)題研究[D];吉林大學(xué);2014年
3 黃煒;電子商務(wù)環(huán)境下商品信息檢索的若干問(wèn)題研究[D];武漢大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 周兵;基于分布式精準(zhǔn)采集的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
2 何忠育;分布式社會(huì)網(wǎng)絡(luò)分析支撐系統(tǒng)研究與應(yīng)用[D];廣東工業(yè)大學(xué);2011年
3 李銳鑫;Web視頻資源的智能發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
4 詹恒飛;分布式圖片搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
5 陳浩;網(wǎng)絡(luò)信息采集技術(shù)及中文未登錄詞算法研究[D];北京郵電大學(xué);2012年
6 馬晶;面向P2P網(wǎng)絡(luò)的分布式Web Crawler的研究[D];東北大學(xué);2010年
7 金梅;網(wǎng)絡(luò)爬蟲(chóng)性能提升與功能拓展的研究與實(shí)現(xiàn)[D];吉林大學(xué);2012年
8 李稚楹;基于網(wǎng)頁(yè)內(nèi)容和時(shí)間反饋的網(wǎng)頁(yè)排序PageRank算法研究[D];重慶理工大學(xué);2012年
9 王毅桐;分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
10 張秋萍;假冒網(wǎng)站監(jiān)測(cè)管理技術(shù)研究[D];廣東工業(yè)大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
2 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
3 李凱,赫楓齡,左萬(wàn)利;PageRank-Pro——一種改進(jìn)的網(wǎng)頁(yè)排序算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2003年02期
4 翟俊海;李勝杰;王熙照;;基于粗糙集技術(shù)的壓縮近鄰規(guī)則[J];計(jì)算機(jī)科學(xué);2012年02期
5 黃德才;戚華春;;PageRank算法研究[J];計(jì)算機(jī)工程;2006年04期
6 周曉飛;姜文瀚;楊靜宇;;基于子空間樣本選擇的最近凸包分類(lèi)器[J];計(jì)算機(jī)工程;2008年12期
7 姜文瀚;周曉飛;楊靜宇;;核子類(lèi)凸包樣本選擇方法及其SVM應(yīng)用[J];計(jì)算機(jī)工程;2008年16期
8 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進(jìn)[J];計(jì)算機(jī)工程;2010年22期
9 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計(jì)算機(jī)應(yīng)用;2008年04期
10 熊忠陽(yáng);史艷;張玉芳;;基于維基百科和網(wǎng)頁(yè)分塊的主題爬行策略[J];計(jì)算機(jī)應(yīng)用;2011年12期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫賀全;彭勤科;張全偉;;基于序列模式特征和SVM的剪切位點(diǎn)預(yù)測(cè)[J];計(jì)算機(jī)工程;2009年05期
2 鄧森;楊軍鋒;郭明威;郭創(chuàng);;基于模糊SVM和虛擬儀器的模擬電路故障診斷研究[J];計(jì)算機(jī)測(cè)量與控制;2011年04期
3 郭有貴;曾萍;朱建林;;交-交矩陣變換器SVM的新穎調(diào)制模式(英文)[J];系統(tǒng)仿真學(xué)報(bào);2009年22期
4 吳學(xué)文;索麗生;王志堅(jiān);;基于SVM的入庫(kù)徑流混沌時(shí)間序列預(yù)測(cè)模型及應(yīng)用[J];系統(tǒng)仿真學(xué)報(bào);2011年11期
5 程博,吳國(guó)平;基于SVM的脫機(jī)手寫(xiě)漢字識(shí)別[J];現(xiàn)代計(jì)算機(jī);2005年09期
6 鐘明霞;;基于神經(jīng)網(wǎng)絡(luò)和SVM的微鈣化簇分類(lèi)方法[J];計(jì)算機(jī)時(shí)代;2008年05期
7 宋國(guó)明;王厚軍;姜書(shū)艷;劉紅;;一種聚類(lèi)分層決策的SVM模擬電路故障診斷方法[J];儀器儀表學(xué)報(bào);2010年05期
8 張淑雅;趙一鳴;李均利;;基于SVM的圖像分類(lèi)算法與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年25期
9 宋國(guó)明;王厚軍;劉紅;姜書(shū)艷;;基于提升小波變換和SVM的模擬電路故障診斷[J];電子測(cè)量與儀器學(xué)報(bào);2010年01期
10 王志明,蔣加伏,唐賢瑛;基于SVM的小波圖像去噪[J];湖南科技學(xué)院學(xué)報(bào);2005年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 滕衛(wèi)平;胡波;滕舟;鐘元;;SVM回歸法在西太平洋熱帶氣旋路徑預(yù)報(bào)中的應(yīng)用研究[A];S1 災(zāi)害天氣研究與預(yù)報(bào)[C];2012年
2 王紅軍;徐小力;付瑤;;基于SVM的旋轉(zhuǎn)機(jī)械故障診斷知識(shí)獲取[A];第八屆全國(guó)設(shè)備與維修工程學(xué)術(shù)會(huì)議、第十三屆全國(guó)設(shè)備監(jiān)測(cè)與診斷學(xué)術(shù)會(huì)議論文集[C];2008年
3 陳兆基;楊宏暉;杜方鍵;;用于水下目標(biāo)識(shí)別的選擇性SVM集成算法[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2011年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年
4 程麗麗;張健沛;楊靜;馬駿;;一種改進(jìn)的層次SVM多類(lèi)分類(lèi)方法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 寧偉;苗雪雷;胡永華;季鐸;張桂平;蔡?hào)|風(fēng);;基于SVM的無(wú)參考譯文的譯文質(zhì)量評(píng)測(cè)[A];機(jī)器翻譯研究進(jìn)展——第四屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2008年
7 劉旭;羅鵬飛;李綱;;基于擬合角特征及SVM的雷達(dá)輻射源個(gè)體識(shí)別[A];全國(guó)第五屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議專(zhuān)刊(第一冊(cè))[C];2011年
8 羅浩;謝軍龍;胡云鵬;;地源熱泵空調(diào)系統(tǒng)故障診斷中SVM的應(yīng)用[A];全國(guó)暖通空調(diào)制冷2008年學(xué)術(shù)年會(huì)資料集[C];2008年
9 劉閃電;王建東;;權(quán)重部分更新的大規(guī)模線(xiàn)性SVM求解器[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
10 王艦;湯光明;;基于SVM的圖像隱寫(xiě)檢測(cè)分析[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張漢女;基于SVM的海岸線(xiàn)提取方法研究[D];東北師范大學(xué);2010年
2 劉軍;基于SVM的半監(jiān)督網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)[D];復(fù)旦大學(xué);2009年
3 張永俊;基于SVM的增量入侵檢測(cè)方法研究[D];西安科技大學(xué);2013年
4 田冪;基于概率SVM的腫瘤預(yù)警系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2013年
5 王碩;基于廣義S變換和SVM的電壓暫降檢測(cè)與識(shí)別方法研究[D];燕山大學(xué);2013年
6 楊濤;基于SVM的中國(guó)醫(yī)藥制造企業(yè)財(cái)務(wù)危機(jī)預(yù)警研究[D];廈門(mén)大學(xué);2009年
7 周洪利;基于SVM的網(wǎng)絡(luò)信息過(guò)濾研究[D];山東師范大學(xué);2008年
8 齊振東;基于SVM的地基土承載力預(yù)測(cè)[D];吉林大學(xué);2008年
9 任瓊;基于SVM的余杭生態(tài)公益林類(lèi)型的遙感分類(lèi)研究[D];南京林業(yè)大學(xué);2008年
10 楊洋;基于SVM的印刷品缺陷在線(xiàn)檢測(cè)[D];華中科技大學(xué);2012年
,本文編號(hào):614928
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/614928.html