基于T-Graph算法的主題爬蟲研究
本文關(guān)鍵詞:基于T-Graph算法的主題爬蟲研究
更多相關(guān)文章: 主題爬蟲 T-Graph 維基百科 相似度計(jì)算 權(quán)重
【摘要】:為解決傳統(tǒng)主題爬蟲抓取特定領(lǐng)域的網(wǎng)頁(yè)信息效率低下問(wèn)題,在分析主題爬蟲算法T-Graph的基礎(chǔ)上,提出一種改進(jìn)的T-Graph主題爬蟲算法。利用維基百科的相關(guān)知識(shí),采用語(yǔ)義分析的特征項(xiàng)提取算法提取特征項(xiàng),在詞的語(yǔ)義層次上對(duì)文本進(jìn)行相似度計(jì)算,且綜合考慮了網(wǎng)頁(yè)中不同位置文本的權(quán)重問(wèn)題。將改進(jìn)前后的算法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明,在提高主題爬行質(zhì)量方面,改進(jìn)后的算法效果更好。
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:山東省教育科學(xué)規(guī)劃攻關(guān)課題基金項(xiàng)目(ZK1037123C023)
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 0引言針對(duì)通用網(wǎng)絡(luò)爬蟲查準(zhǔn)率低、信息冗余大等缺點(diǎn),主題網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生。主題爬行算法主要分為基于內(nèi)容分析的主題相關(guān)性算法和基于鏈接結(jié)構(gòu)的主題相關(guān)性算法兩大類;趦(nèi)容分析的主題相關(guān)性算法有Best FirstSearch、Fish Search以及Shark Search等算法,這類算法只注重文
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李歡,宋麥玲,楊捷;基于內(nèi)容的圖像檢索系統(tǒng)[J];自動(dòng)化博覽;2005年04期
2 王煜;白石;王正歐;;用于Web文本分類的快速KNN算法[J];情報(bào)學(xué)報(bào);2007年01期
3 趙俊杰;胡學(xué)鋼;;基于文本分類的文檔相似度計(jì)算[J];微型電腦應(yīng)用;2008年12期
4 郝祥根;楊思春;高遠(yuǎn)飆;張偉;;基于向量空間模型的中文問(wèn)答系統(tǒng)研究與實(shí)現(xiàn)[J];蘇州科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期
5 王波;薛媛媚;;網(wǎng)上銷售常問(wèn)問(wèn)答系統(tǒng)的構(gòu)建[J];軟件導(dǎo)刊;2009年02期
6 袁正午;李玉森;張雪英;;基于屬性的文本相似度計(jì)算算法改進(jìn)[J];計(jì)算機(jī)工程;2009年17期
7 繆勇;宋斌;;基于Web日志的典型匿名用戶路徑挖掘研究[J];計(jì)算機(jī)應(yīng)用;2009年10期
8 張愛(ài)琦;左萬(wàn)利;王英;梁浩;;基于多個(gè)領(lǐng)域本體的文本層次被定義聚類方法[J];計(jì)算機(jī)科學(xué);2010年03期
9 江耿豪;;基于VisualProlog的自動(dòng)答疑系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代教育技術(shù);2010年07期
10 蘇慧群;;XML文檔數(shù)對(duì)序列模型與結(jié)構(gòu)相似度算法研究[J];湖南廣播電視大學(xué)學(xué)報(bào);2010年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
2 車萬(wàn)翔;劉挺;秦兵;李生;;面向雙語(yǔ)句對(duì)檢索的漢語(yǔ)句子相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
3 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
4 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
5 鄧錦輝;余正濤;章程;毛存禮;郭劍毅;;漢語(yǔ)語(yǔ)言處理接口的集成與應(yīng)用[A];2007年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2007年
6 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語(yǔ)義傾向計(jì)算[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
7 劉寶艷;林鴻飛;楊志豪;;基于改進(jìn)編輯距離和依存結(jié)構(gòu)的句子相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
8 張學(xué);黃德根;;EBMT中翻譯模板的抽取與匹配[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 朱麗麗;鄭家恒;;一種基于實(shí)例學(xué)習(xí)的人名識(shí)別方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
10 王振宇;譚紅葉;鄭家恒;;基于Bootstrapping的交通工具名識(shí)別[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 宋萬(wàn)鵬;短文本相似度計(jì)算在用戶交互式問(wèn)答系統(tǒng)中的應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 李輝;移動(dòng)商務(wù)導(dǎo)購(gòu)系統(tǒng)的研究[D];大連理工大學(xué);2008年
4 王吉華;基于特征函數(shù)的產(chǎn)品造型進(jìn)化設(shè)計(jì)研究[D];山東師范大學(xué);2009年
5 盧湖川;人臉識(shí)別中幾個(gè)關(guān)鍵算法研究[D];大連理工大學(xué);2008年
6 朱朝勇;基于本體的知識(shí)庫(kù)分類研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
7 馮曉寧;基于本體的語(yǔ)義Petri網(wǎng)研究及其在系統(tǒng)建模中的應(yīng)用[D];哈爾濱工程大學(xué);2009年
8 王剛;基于本體的服務(wù)模型及方法研究[D];西南大學(xué);2008年
9 楊云;中藥指紋圖譜數(shù)據(jù)處理技術(shù)的研究及應(yīng)用[D];華南理工大學(xué);2007年
10 江少鋒;醫(yī)學(xué)圖像的特征自動(dòng)提取及基于模糊特征的圖像檢索研究[D];南方醫(yī)科大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王德剛;智能答疑系統(tǒng)的設(shè)計(jì)[D];內(nèi)蒙古大學(xué);2008年
2 張宇;關(guān)系數(shù)據(jù)庫(kù)中基于元組的關(guān)鍵詞查詢研究[D];燕山大學(xué);2009年
3 張猛;基于話題的事件相似度計(jì)算[D];河北大學(xué);2014年
4 郭競(jìng);三維地形模型檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2007年
5 王婷;OWL本體之間概念相似度計(jì)算研究[D];河海大學(xué);2007年
6 蔡元哲;本體實(shí)例學(xué)習(xí)關(guān)鍵技術(shù)的研究[D];中國(guó)人民大學(xué);2008年
7 劉巖;基于概念圖的中文語(yǔ)義分析系統(tǒng)的研究與實(shí)現(xiàn)[D];西北大學(xué);2008年
8 王利局;基于語(yǔ)義分析樹核的句子相似度計(jì)算[D];大連理工大學(xué);2008年
9 趙火軍;基于引文鏈的知識(shí)元挖掘方法研究[D];西安電子科技大學(xué);2009年
10 陳銳;基于概念圖的信息檢索查詢擴(kuò)展模型研究與實(shí)現(xiàn)[D];西北大學(xué);2009年
,本文編號(hào):1253884
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1253884.html