基于主題的互聯(lián)網(wǎng)信息抓取研究
本文選題:互聯(lián)網(wǎng)信息抓取 切入點(diǎn):主題爬蟲 出處:《浙江大學(xué)》2014年博士論文 論文類型:學(xué)位論文
【摘要】:互聯(lián)網(wǎng)信息抓取是利用計(jì)算機(jī)自動(dòng)從互聯(lián)網(wǎng)中獲取信息的方法,在搜索引擎,情報(bào)收集系統(tǒng)中得到廣泛應(yīng)用。傳統(tǒng)抓取技術(shù)主要研究對全網(wǎng)數(shù)據(jù)抓取策略的調(diào)優(yōu),以保證信息的新鮮度。但是全網(wǎng)抓取會(huì)導(dǎo)致信息處理深度不夠,專業(yè)性不強(qiáng),無法滿足企業(yè)的信息需求;而且大多數(shù)中小型企業(yè)并沒有足夠的計(jì)算資源支持全網(wǎng)信息抓取,所以基于主題的抓取系統(tǒng)應(yīng)運(yùn)而生。隨著聚焦爬蟲概念的提出,基于特定主題的抓取系統(tǒng)研究開始受到研究者的關(guān)注。如何使用最少的計(jì)算資源,抓取到盡可能多的主題相關(guān)頁面是主題抓取系統(tǒng)面臨的主要挑戰(zhàn)。其中涉及到三個(gè)關(guān)鍵的問題:1)如何定義用戶主題:2)如何進(jìn)行網(wǎng)頁主題判斷;3)如何預(yù)測待抓取URL的主題相關(guān)性,并制定相應(yīng)的抓取策略。本文深入研究了基于主題的互聯(lián)網(wǎng)信息抓取技術(shù),分析了其中的關(guān)鍵問題,并提出了相應(yīng)的解決方案,主要貢獻(xiàn)如下:1)針對主題抓取系統(tǒng)的三個(gè)特點(diǎn):主題需求的開放性,主題聚焦的層次性和主題信息的局部性,提出了基于主題知識(shí)庫的互聯(lián)網(wǎng)主題信息抓取框架。圍繞主題知識(shí)庫,提供了綜合主題需求表達(dá)方式,知識(shí)學(xué)習(xí)流程和網(wǎng)頁主題判斷方法。通過主題富饒域挖掘模塊進(jìn)一步優(yōu)化抓取效率。2)針對主題表達(dá)的開放性和動(dòng)態(tài)性問題,提出了基于穩(wěn)定詞集的主題需求封閉流程,并在此基礎(chǔ)上進(jìn)一步提出了基于迭代式擴(kuò)展-過濾框架的穩(wěn)定詞集構(gòu)造方法。通過頻繁項(xiàng)挖掘和LDA分析兩種方法對核心主題詞進(jìn)行擴(kuò)展,并使用知識(shí)庫對擴(kuò)展詞集進(jìn)行過濾。實(shí)驗(yàn)表明此方法獲得的穩(wěn)定詞集具有較強(qiáng)的主題代表性。3)針對主題聚焦的層次性問題,提出了基于本體的網(wǎng)頁主題判斷算法,并應(yīng)用于主題爬蟲。利用本體中的概念以及概念間的位置關(guān)系,對網(wǎng)頁信息進(jìn)行主題降維,并通過本體綜合加權(quán)提高主題判斷的準(zhǔn)確性,從而提高主題抓取的收獲率。通過實(shí)驗(yàn)與其他的降維方法進(jìn)行比較,證明了利用本體進(jìn)行主題降維的有效性。4)針對互聯(lián)網(wǎng)信息的主題局部性特點(diǎn),提出了基于主題富饒域的抓取策略。主題富饒域優(yōu)先(TRDF)算法根據(jù)主題濃度將主題域分為三個(gè)不同集合,針對不同集合采取差序化抓取策略。實(shí)驗(yàn)結(jié)果表明TRDF策略在準(zhǔn)確率和召回率上均優(yōu)于現(xiàn)有算法。
[Abstract]:Internet information capture is a method of automatically obtaining information from the Internet by using the computer, in the search engine, is widely used in intelligence collection system. The main research of traditional grasping technology tuning of the whole network data capture strategy, to ensure the freshness of information. But the whole network grasping leads to information processing deep enough, professional is not strong that can not meet the enterprise information needs; and the majority of small and medium enterprises and not enough computing resources to support the whole network information capture, so as grasping system based on topic. With the development of the concept of focused crawler, crawling system specific topics began to attention of researchers. Based on how to use the least amount of computational resources, to grasp the theme the relevant page as much as possible is the main challenge topic crawling system which involves three key questions: 1) how to define Family theme: 2) how to determine the theme "; 3) to predict the relevance to grab URL, and to develop the corresponding capture strategy. This paper studies the Internet information crawl technology based on topic, analyzes the key problems, and put forward the corresponding solutions. The main contributions are as follows: 1) three according to the characteristics of subject crawling system: opening theme demand, local focus levels and thematic information, put forward the theme of Internet information extraction framework based on subject knowledge. Around the theme of knowledge base, provides comprehensive requirements of expression, knowledge learning process and web page topic judgment method. Through the theme of rich domain mining module to further optimize the crawl efficiency.2) for theme expression of the open and dynamic problems, put forward the theme of stable word set demand closed process based on this base Based on the proposed iterative extended stable word filtering framework set construction method based on frequent item mining and LDA. Through the analysis of two methods to expand the core keywords, and use the knowledge base of extended word set filter. The experimental results show that the stability of this method to obtain a set of words with a strong theme of representative.3 aiming at the problem level) focus, put forward the algorithm to determine "theme based on ontology, and applied to the topic crawler. Using the position relationship between concepts in ontology and concept, subject to reduce the dimensionality of the web information, and through the body to improve the accuracy of judging the comprehensive theme, so as to improve the harvest rate. Grasping the theme by comparing with other experimental method of dimensionality reduction, proved the validity of.4 subject dimensionality reduction using ontology) theme local characteristics for the Internet information, is proposed based on the theme The Rao domain crawl strategy. The theme enriched area priority (TRDF) algorithm divides the topic domain into three different collections according to the topic concentration, and adopts the differential sequence crawling strategy for different sets. The experimental results show that the TRDF strategy is superior to the existing algorithm in accuracy and recall rate.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
相關(guān)會(huì)議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢預(yù)測[D];哈爾濱工業(yè)大學(xué);2013年
8 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年
9 郭程;面向多樣性檢索的子主題挖掘技術(shù)的研究[D];沈陽航空航天大學(xué);2014年
10 吳彥文;主題信息合理性、語境意義偏向性對漢語句子歧義消解的實(shí)驗(yàn)研究[D];陜西師范大學(xué);2002年
,本文編號(hào):1622538
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1622538.html