基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究
本文選題:主題爬蟲 + 主題相關(guān)概念; 參考:《計(jì)算機(jī)應(yīng)用研究》2013年08期
【摘要】:針對(duì)傳統(tǒng)主題爬蟲的不足,提出一種基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲。先通過主題分類樹獲取主題相關(guān)概念集合,然后結(jié)合主題描述文檔構(gòu)建主題向量來描述主題;下載網(wǎng)頁后引入網(wǎng)頁分塊來穿越"灰色隧道";采用文本內(nèi)容和鏈接結(jié)構(gòu)相結(jié)合的策略計(jì)算候選鏈接優(yōu)先級(jí),并在HITS算法的基礎(chǔ)上提出了R-HITS算法計(jì)算鏈接結(jié)構(gòu)對(duì)候選鏈接優(yōu)先級(jí)的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,利用該方法實(shí)現(xiàn)的主題爬蟲查準(zhǔn)率達(dá)66%、信息量總和達(dá)53%,在垂直搜索引擎和輿情分析應(yīng)用方面有更好的搜索效果。
[Abstract]:Aiming at the deficiency of traditional theme crawler, a topic crawler based on topic related concept and web page block is proposed. Firstly, the topic related concept set is obtained through the topic classification tree, and then the topic vector is constructed with the topic description document to describe the topic. After downloading the web page, the section of the page is introduced to traverse the "gray tunnel", and the strategy of combining the text content with the link structure is used to calculate the priority of the candidate link. On the basis of HITS algorithm, the contribution of link structure to candidate link priority is calculated by R-HITS algorithm. The experimental results show that the precision rate of subject crawler achieved by this method is 66 and the total amount of information is 53. It has better search effect in vertical search engine and public opinion analysis application.
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(71102065)
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計(jì)算機(jī)應(yīng)用;2008年04期
2 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計(jì)算機(jī)應(yīng)用;2011年12期
相關(guān)博士學(xué)位論文 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
2 李園偉;;面向高校主題搜索引擎的的爬行器設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年16期
3 陳志雄;朱向慶;;基于內(nèi)容評(píng)價(jià)與超鏈分析的主題爬蟲策略[J];廣西輕工業(yè);2011年03期
4 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計(jì)算機(jī)應(yīng)用;2011年12期
5 熊忠陽;史艷;張玉芳;;基于信息增益的自適應(yīng)主題爬行策略[J];計(jì)算機(jī)應(yīng)用研究;2012年02期
6 魏晶晶;楊定達(dá);廖祥文;;基于網(wǎng)頁內(nèi)容相似度改進(jìn)算法的主題網(wǎng)絡(luò)爬蟲[J];計(jì)算機(jī)與現(xiàn)代化;2011年09期
7 韓國輝;陳黎;梁時(shí)木;唐小棚;王亞強(qiáng);于中華;;Na釭ve Bayes分類器制導(dǎo)的專業(yè)網(wǎng)頁爬取算法[J];中文信息學(xué)報(bào);2010年04期
8 彭浩;蔡美玲;陳繼鋒;劉熾;余炳銳;;面向?qū)Ш叫途W(wǎng)頁關(guān)鍵詞自動(dòng)抽取的視覺模型與算法[J];計(jì)算機(jī)應(yīng)用;2012年08期
9 王靜;何婷婷;衣馬木艾山·阿布都力克木;;協(xié)同過濾在中文維基百科類別推薦上的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2013年03期
10 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年14期
相關(guān)博士學(xué)位論文 前2條
1 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
2 田俊華;基于本體知識(shí)庫的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學(xué);2010年
2 盧承山;基于領(lǐng)域的主題信息采集技術(shù)研究[D];武漢理工大學(xué);2011年
3 邱偉林;面向領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];大連海事大學(xué);2011年
4 李蕊;基于網(wǎng)絡(luò)爬蟲技術(shù)的多源下載系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
5 陳恒;基于內(nèi)容的視頻搜索引擎[D];北京郵電大學(xué);2011年
6 鄭小波;基于語義的主題搜索引擎研究[D];安徽大學(xué);2011年
7 張仲祥;基于領(lǐng)域本體的Deep Web數(shù)據(jù)源聚焦技術(shù)研究[D];廣西師范大學(xué);2011年
8 李明銘;基于網(wǎng)絡(luò)信息提取和網(wǎng)絡(luò)空間服務(wù)的二手房產(chǎn)價(jià)格指數(shù)編制研究[D];南京師范大學(xué);2011年
9 詹恒飛;分布式圖片搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2010年
10 蘇曉輝;構(gòu)件垂直搜索引擎的關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
2 楊沛,鄭啟倫,彭宏;Inherit/Feedback:一種新的Web主題挖掘方法[J];計(jì)算機(jī)研究與發(fā)展;2004年05期
3 李曉亞;赫楓齡;左萬利;;基于網(wǎng)頁分塊技術(shù)主題爬行器的實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2007年06期
4 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
5 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
6 趙佳鶴;王秀坤;劉亞欣;;基于語義分析的主題信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2007年02期
7 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學(xué)報(bào);2003年04期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 封化民,劉飚,劉艷敏,方勇,宋國森;含有位置坐標(biāo)樹的Web頁面分析和內(nèi)容提取框架[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
10 蘇祺;項(xiàng)錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
相關(guān)博士學(xué)位論文 前2條
1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
2 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳曉云;莫明輝;李廉;趙燕;;基于網(wǎng)絡(luò)日志分析的混合策略主題爬蟲[J];微計(jì)算機(jī)信息;2009年03期
2 鄭國良;葉飛躍;張濱;林國俊;;基于網(wǎng)頁內(nèi)容和鏈接價(jià)值的相關(guān)度方法的實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年23期
3 王芳;于浩;譚紅葉;趙鐵軍;;基于鏈接分塊的相關(guān)鏈接提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年31期
4 鄭皎凌;王成良;;網(wǎng)頁分塊聚類的Web站點(diǎn)邏輯域挖掘[J];計(jì)算機(jī)工程;2007年04期
5 徐薇;;Web信息采集中頁面分塊技術(shù)的研究[J];武漢科技學(xué)院學(xué)報(bào);2007年05期
6 關(guān)慧芬;師軍;馬繼紅;;基于遺傳算法的主題爬行技術(shù)研究[J];計(jì)算機(jī)與數(shù)字工程;2008年10期
7 任小燕;康小軍;張紅衛(wèi);;基于動(dòng)態(tài)隧道算法的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2008年06期
8 左洪亮,裴學(xué)勝,劉麗萍;網(wǎng)頁設(shè)計(jì)中的網(wǎng)站目錄結(jié)構(gòu)和鏈接結(jié)構(gòu)問題[J];現(xiàn)代計(jì)算機(jī);2002年09期
9 汪濤,樊孝忠;主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2004年S1期
10 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年10期
相關(guān)會(huì)議論文 前10條
1 張文東;袁春風(fēng);武港山;;基于視覺的網(wǎng)頁數(shù)據(jù)抽取[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
2 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
3 陳小飛;王軼彤;;一種基于鏈接結(jié)構(gòu)的Spam網(wǎng)頁過濾算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
4 馮迪;李晉宏;曹原;;基于網(wǎng)頁的數(shù)據(jù)挖掘研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會(huì)議論文集(上冊)[C];2007年
5 薛宇飛;劉奕群;張敏;馬少平;茹立云;;基于用戶瀏覽圖的網(wǎng)頁質(zhì)量評(píng)估方法的比較分析[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
6 金鋒;張玉平;張巖;郝艾芳;;電子技術(shù)網(wǎng)絡(luò)教學(xué)系統(tǒng)的建設(shè)[A];全國電子技術(shù)研究會(huì)2005年會(huì)論文集[C];2005年
7 吳娜;吳解萬;;校園網(wǎng)站的建設(shè)與設(shè)計(jì)[A];第二屆全國解剖學(xué)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2009年
8 劉紹波;胡盈;鄭涵;樂嘉錦;;Web站點(diǎn)鏈接結(jié)構(gòu)的動(dòng)態(tài)調(diào)整模型研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
9 吳煒;梁昆;李瑞軒;辜希武;盧正鼎;;一種基于主題相關(guān)度的網(wǎng)頁排序算法[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊)[C];2008年
10 王燦輝;張敏;馬少平;;Web作弊與反作弊技術(shù)綜述[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前1條
1 孫富春 李磊;電子政務(wù)中的數(shù)據(jù)挖掘[N];計(jì)算機(jī)世界;2001年
相關(guān)博士學(xué)位論文 前4條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
2 江開忠;上下文感知的Web搜索關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2008年
3 王曉宇;Web搜索與Web緩存的若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2003年
4 王欣;WEB應(yīng)用系統(tǒng)安全檢測關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 李京京;主題爬蟲的關(guān)鍵技術(shù)研究[D];吉林大學(xué);2008年
2 朱良峰;主題網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D];南京理工大學(xué);2008年
3 王榮華;HWME中“廣義專家”群體網(wǎng)絡(luò)研討過程的鏈接結(jié)構(gòu)及其分析算法研究[D];昆明理工大學(xué);2009年
4 徐濤;基于社會(huì)網(wǎng)絡(luò)分析的藏文web鏈接結(jié)構(gòu)研究[D];西北民族大學(xué);2011年
5 李正文;基于SVM分類算法的主題爬蟲研究[D];哈爾濱工程大學(xué);2011年
6 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年
7 李麗;基于云計(jì)算的Web鏈接結(jié)構(gòu)分析及應(yīng)用研究[D];電子科技大學(xué);2011年
8 楊貞;基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];合肥工業(yè)大學(xué);2008年
9 魏超;社交網(wǎng)絡(luò)中的鏈接預(yù)測研究[D];華中科技大學(xué);2012年
10 楊明翰;面向手持式設(shè)備的WEB頁面自動(dòng)切割技術(shù)研究[D];電子科技大學(xué);2009年
,本文編號(hào):1875659
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1875659.html