基于主題相關概念和網頁分塊的主題爬蟲研究
本文選題:主題爬蟲 + 主題相關概念 ; 參考:《計算機應用研究》2013年08期
【摘要】:針對傳統(tǒng)主題爬蟲的不足,提出一種基于主題相關概念和網頁分塊的主題爬蟲。先通過主題分類樹獲取主題相關概念集合,然后結合主題描述文檔構建主題向量來描述主題;下載網頁后引入網頁分塊來穿越"灰色隧道";采用文本內容和鏈接結構相結合的策略計算候選鏈接優(yōu)先級,并在HITS算法的基礎上提出了R-HITS算法計算鏈接結構對候選鏈接優(yōu)先級的貢獻。實驗結果表明,利用該方法實現(xiàn)的主題爬蟲查準率達66%、信息量總和達53%,在垂直搜索引擎和輿情分析應用方面有更好的搜索效果。
[Abstract]:Aiming at the deficiency of traditional theme crawler, a topic crawler based on topic related concept and web page block is proposed. Firstly, the topic related concept set is obtained through the topic classification tree, and then the topic vector is constructed with the topic description document to describe the topic. After downloading the web page, the section of the page is introduced to traverse the "gray tunnel", and the strategy of combining the text content with the link structure is used to calculate the priority of the candidate link. On the basis of HITS algorithm, the contribution of link structure to candidate link priority is calculated by R-HITS algorithm. The experimental results show that the precision rate of subject crawler achieved by this method is 66 and the total amount of information is 53. It has better search effect in vertical search engine and public opinion analysis application.
【作者單位】: 重慶大學計算機學院;
【基金】:國家自然科學基金資助項目(71102065)
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前2條
1 蔣宗禮;徐學可;李帥;;一種基于超鏈接引導的主題搜索的主題敏感爬行方法[J];計算機應用;2008年04期
2 熊忠陽;史艷;張玉芳;;基于維基百科和網頁分塊的主題爬行策略[J];計算機應用;2011年12期
相關博士學位論文 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
【共引文獻】
相關期刊論文 前10條
1 武昊;廖安平;何超英;侯東陽;;基于主題相關度的地理信息Web服務爬蟲研究[J];地理與地理信息科學;2012年02期
2 李園偉;;面向高校主題搜索引擎的的爬行器設計[J];電腦知識與技術;2011年16期
3 陳志雄;朱向慶;;基于內容評價與超鏈分析的主題爬蟲策略[J];廣西輕工業(yè);2011年03期
4 熊忠陽;史艷;張玉芳;;基于維基百科和網頁分塊的主題爬行策略[J];計算機應用;2011年12期
5 熊忠陽;史艷;張玉芳;;基于信息增益的自適應主題爬行策略[J];計算機應用研究;2012年02期
6 魏晶晶;楊定達;廖祥文;;基于網頁內容相似度改進算法的主題網絡爬蟲[J];計算機與現(xiàn)代化;2011年09期
7 韓國輝;陳黎;梁時木;唐小棚;王亞強;于中華;;Na釭ve Bayes分類器制導的專業(yè)網頁爬取算法[J];中文信息學報;2010年04期
8 彭浩;蔡美玲;陳繼鋒;劉熾;余炳銳;;面向導航型網頁關鍵詞自動抽取的視覺模型與算法[J];計算機應用;2012年08期
9 王靜;何婷婷;衣馬木艾山·阿布都力克木;;協(xié)同過濾在中文維基百科類別推薦上的應用[J];計算機應用;2013年03期
10 張翔;周明全;李智杰;董麗麗;;基于PageRank與Bagging的主題爬蟲研究[J];計算機工程與設計;2010年14期
相關博士學位論文 前2條
1 張翔;文本挖掘技術研究及其在綜合風險信息網絡中的應用[D];西北大學;2011年
2 田俊華;基于本體知識庫的教學資源自動采集技術研究[D];南京師范大學;2011年
相關碩士學位論文 前10條
1 岳廣飛;基于二次搜索的搜索引擎技術研究[D];山東科技大學;2010年
2 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年
3 邱偉林;面向領域的垂直搜索引擎的研究與實現(xiàn)[D];大連海事大學;2011年
4 李蕊;基于網絡爬蟲技術的多源下載系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2011年
5 陳恒;基于內容的視頻搜索引擎[D];北京郵電大學;2011年
6 鄭小波;基于語義的主題搜索引擎研究[D];安徽大學;2011年
7 張仲祥;基于領域本體的Deep Web數據源聚焦技術研究[D];廣西師范大學;2011年
8 李明銘;基于網絡信息提取和網絡空間服務的二手房產價格指數編制研究[D];南京師范大學;2011年
9 詹恒飛;分布式圖片搜索引擎設計與實現(xiàn)[D];國防科學技術大學;2010年
10 蘇曉輝;構件垂直搜索引擎的關鍵技術研究[D];華中科技大學;2011年
【二級參考文獻】
相關期刊論文 前10條
1 荊濤,左萬利;基于可視布局信息的網頁噪音去除算法[J];華南理工大學學報(自然科學版);2004年S1期
2 楊沛,鄭啟倫,彭宏;Inherit/Feedback:一種新的Web主題挖掘方法[J];計算機研究與發(fā)展;2004年05期
3 李曉亞;赫楓齡;左萬利;;基于網頁分塊技術主題爬行器的實現(xiàn)[J];吉林大學學報(理學版);2007年06期
4 于滿泉,陳鐵睿,許洪波;基于分塊的網頁信息解析器的研究與設計[J];計算機應用;2005年04期
5 周立柱,林玲;聚焦爬蟲技術研究綜述[J];計算機應用;2005年09期
6 趙佳鶴;王秀坤;劉亞欣;;基于語義分析的主題信息采集系統(tǒng)的設計與實現(xiàn)[J];計算機應用;2007年02期
7 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質量的HTML解析方法[J];中文信息學報;2003年04期
8 歐健文,董守斌,蔡斌;模板化網頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期
9 封化民,劉飚,劉艷敏,方勇,宋國森;含有位置坐標樹的Web頁面分析和內容提取框架[J];清華大學學報(自然科學版);2005年S1期
10 蘇祺;項錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學學報(理學版);2006年03期
相關博士學位論文 前2條
1 彭濤;面向專業(yè)搜索引擎的主題爬行技術研究[D];吉林大學;2007年
2 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
【相似文獻】
相關期刊論文 前10條
1 陳曉云;莫明輝;李廉;趙燕;;基于網絡日志分析的混合策略主題爬蟲[J];微計算機信息;2009年03期
2 鄭國良;葉飛躍;張濱;林國俊;;基于網頁內容和鏈接價值的相關度方法的實現(xiàn)[J];計算機工程與設計;2008年23期
3 王芳;于浩;譚紅葉;趙鐵軍;;基于鏈接分塊的相關鏈接提取方法[J];計算機工程與應用;2006年31期
4 鄭皎凌;王成良;;網頁分塊聚類的Web站點邏輯域挖掘[J];計算機工程;2007年04期
5 徐薇;;Web信息采集中頁面分塊技術的研究[J];武漢科技學院學報;2007年05期
6 關慧芬;師軍;馬繼紅;;基于遺傳算法的主題爬行技術研究[J];計算機與數字工程;2008年10期
7 任小燕;康小軍;張紅衛(wèi);;基于動態(tài)隧道算法的網絡爬行器設計與實現(xiàn)[J];現(xiàn)代圖書情報技術;2008年06期
8 左洪亮,裴學勝,劉麗萍;網頁設計中的網站目錄結構和鏈接結構問題[J];現(xiàn)代計算機;2002年09期
9 汪濤,樊孝忠;主題爬蟲的設計與實現(xiàn)[J];計算機應用;2004年S1期
10 夏詔杰;梁春燕;郭力;;化學主題網絡爬蟲的設計和實現(xiàn)[J];計算機工程與應用;2006年10期
相關會議論文 前10條
1 張文東;袁春風;武港山;;基于視覺的網頁數據抽取[A];2009年研究生學術交流會通信與信息技術論文集[C];2009年
2 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
3 陳小飛;王軼彤;;一種基于鏈接結構的Spam網頁過濾算法[A];NDBC2010第27屆中國數據庫學術會議論文集(B輯)[C];2010年
4 馮迪;李晉宏;曹原;;基于網頁的數據挖掘研究[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
5 薛宇飛;劉奕群;張敏;馬少平;茹立云;;基于用戶瀏覽圖的網頁質量評估方法的比較分析[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
6 金鋒;張玉平;張巖;郝艾芳;;電子技術網絡教學系統(tǒng)的建設[A];全國電子技術研究會2005年會論文集[C];2005年
7 吳娜;吳解萬;;校園網站的建設與設計[A];第二屆全國解剖學技術學術會議論文集[C];2009年
8 劉紹波;胡盈;鄭涵;樂嘉錦;;Web站點鏈接結構的動態(tài)調整模型研究[A];第二十屆全國數據庫學術會議論文集(技術報告篇)[C];2003年
9 吳煒;梁昆;李瑞軒;辜希武;盧正鼎;;一種基于主題相關度的網頁排序算法[A];2008年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2008年
10 王燦輝;張敏;馬少平;;Web作弊與反作弊技術綜述[A];第二屆全國信息檢索與內容安全學術會議(NCIRCS-2005)論文集[C];2005年
相關重要報紙文章 前1條
1 孫富春 李磊;電子政務中的數據挖掘[N];計算機世界;2001年
相關博士學位論文 前4條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
2 江開忠;上下文感知的Web搜索關鍵技術研究[D];華東師范大學;2008年
3 王曉宇;Web搜索與Web緩存的若干關鍵問題研究[D];復旦大學;2003年
4 王欣;WEB應用系統(tǒng)安全檢測關鍵技術研究[D];北京郵電大學;2011年
相關碩士學位論文 前10條
1 李京京;主題爬蟲的關鍵技術研究[D];吉林大學;2008年
2 朱良峰;主題網絡爬蟲的研究與設計[D];南京理工大學;2008年
3 王榮華;HWME中“廣義專家”群體網絡研討過程的鏈接結構及其分析算法研究[D];昆明理工大學;2009年
4 徐濤;基于社會網絡分析的藏文web鏈接結構研究[D];西北民族大學;2011年
5 李正文;基于SVM分類算法的主題爬蟲研究[D];哈爾濱工程大學;2011年
6 海濤;垂直搜索引擎數據采集技術的研究與實現(xiàn)[D];華北電力大學(北京);2008年
7 李麗;基于云計算的Web鏈接結構分析及應用研究[D];電子科技大學;2011年
8 楊貞;基于本體的主題爬蟲的設計與實現(xiàn)[D];合肥工業(yè)大學;2008年
9 魏超;社交網絡中的鏈接預測研究[D];華中科技大學;2012年
10 楊明翰;面向手持式設備的WEB頁面自動切割技術研究[D];電子科技大學;2009年
,本文編號:1875659
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1875659.html