基于規(guī)則的論壇爬取與抽取一體化
本文選題:Web數(shù)據(jù)管理 切入點:數(shù)據(jù)爬取 出處:《華東師范大學》2011年碩士論文 論文類型:學位論文
【摘要】:近些年來,論壇、博客和微博等相繼出現(xiàn)在互聯(lián)網應用中,并逐漸成為人們發(fā)布互聯(lián)網信息的主要方式。其中,論壇已成為信息發(fā)布、共享和傳播的重要平臺。論壇的內容由普通用戶創(chuàng)建和發(fā)布,對于輿情分析、互聯(lián)網廣告推薦等應用具有重要意義。 數(shù)據(jù)爬取(Data Crawler)是數(shù)據(jù)分析和應用的前提。傳統(tǒng)的爬取技術以頁面為單位爬取網頁,并將數(shù)據(jù)的處理與分析放在網頁爬取之后。這種方式不適合論壇數(shù)據(jù)的爬取。這主要是有以下兩方面的原因:首先,論壇數(shù)據(jù)具有較強的結構性。傳統(tǒng)的爬蟲以單個頁面為單位進行數(shù)據(jù)的爬取,忽略了論壇頁面的內在結構和頁面間的關聯(lián)。其次,數(shù)據(jù)大都隱藏于網絡頁面的結構中。傳統(tǒng)的爬蟲保存頁面的完整信息,不對頁面進行數(shù)據(jù)處理。 因此,本文提出了一種新的數(shù)據(jù)爬取和信息抽取一體化的論壇數(shù)據(jù)爬取方法,并在該方法的基礎上設計與實現(xiàn)了InForCE系統(tǒng)。該系統(tǒng)分析論壇導航頁面的結構和內容,以此進行帖子頁面爬取任務的調度,并按照論壇內容對爬取的數(shù)據(jù)進行組織與管理。InForCE系統(tǒng)由爬蟲、HTML解析器、鏈接池、學習器和規(guī)則庫組成:爬蟲用于爬取網頁。HTML解析器將HTML頁面轉化為用于信息抽取的XHTML頁面。鏈接池用于判斷系統(tǒng)的調度策略。規(guī)則學習器和規(guī)則庫用于頁面的信息抽取。 本文的主要貢獻總結如下: 1.將頁面爬取、結構分析和內容抽取相結合,并根據(jù)信息單元(而不是頁面)對爬取任務進行調度,對爬取的數(shù)據(jù)進行管理。信息單元是一個帖子的所有信息。論壇頁面類型包括導航頁面和帖子頁面。導航頁面以列表的形式展示了所有討論的主題。帖子頁面顯示主題和關于主題的跟帖。導航頁面的內容決定帖子頁面的爬取調度策略,并將同一個帖子的所有內容組織在同一個文檔中。 2.提出了一種基于XML和XPath模式的描述性模式映射規(guī)則,并將其用于論壇數(shù)據(jù)的抽取與轉化。XPath模式表示一組XPath的特征。它被用于定義模式映射規(guī)則。模式映射規(guī)則表示從源文檔(通常為XHTML格式)到目標文檔(通常為XML格式)的數(shù)據(jù)映射關系。 3.使用規(guī)則學習器簡化信息抽取的過程。通過機器學習的方式獲取模式映射規(guī)則,并將其自動轉化為XSLT,從而實現(xiàn)從論壇頁面到最終結果的轉換。規(guī)則的自動轉化使不具有XSLT知識的用戶也能夠快速完成數(shù)據(jù)的抽取任務。 綜上所述,我們分析了論壇數(shù)據(jù)獲取過程中存在的問題,并針對論壇的數(shù)據(jù)特征設計了InForCE系統(tǒng)。本文以籬笆論壇為實驗,定義數(shù)據(jù)抽取模型,學習模式映射規(guī)則,并進行論壇數(shù)據(jù)的爬取和抽取。目前,InForCE系統(tǒng)能夠成功的運行在籬笆論壇和搜房論壇上,獲得的論壇頁面達到380G,抽取的論壇數(shù)據(jù)達到40G。最后,通過實驗證明該系統(tǒng)能夠高效的爬取、抽取和組織論壇數(shù)據(jù)。
[Abstract]:In recent years, forums, blogs and Weibo have appeared in Internet applications one after another, and have gradually become the main way for people to publish information on the Internet. The content of the forum is created and published by ordinary users, which is of great significance to the application of public opinion analysis, Internet advertising recommendation and so on. Data crawling data Crawler is the premise of data analysis and application. And put the data processing and analysis after the web crawling. This method is not suitable for the crawling of forum data. This is mainly for the following two reasons: first, The traditional crawler crawls the data on a single page, neglecting the internal structure of the forum page and the correlation between the pages. Secondly, Most of the data are hidden in the structure of the web page. The traditional crawler saves the complete information of the page and does not deal with the data of the page. Therefore, this paper proposes a new method of data crawling and information extraction, and designs and implements a InForCE system based on this method. The system analyzes the structure and content of the forum navigation page. According to the content of the forum, the crawling data is organized and managed by the crawler HTML parser and link pool. Learner and rule base: crawler is used to crawl web page. HTML parser transforms HTML page into XHTML page for information extraction. Link pool is used to judge system scheduling strategy. Rule learner and rule base are used for page information extraction. The main contributions of this paper are summarized as follows:. 1. Combine page crawling, structure analysis and content extraction, and schedule crawling tasks according to the information unit (not the page). Manage crawling data. The information unit is all the information for a post. Forum page types include navigation pages and post pages. Navigation pages show all the topics discussed in a list. Post pages display. The content of the navigation page determines the crawling and scheduling strategy of the post page, And organize all the content of the same post in the same document. 2. A descriptive schema mapping rule based on XML and XPath schema is proposed. It is used to extract and transform the forum data. XPath schema represents the characteristics of a set of XPath. It is used to define schema mapping rules. Schema mapping rules represent from the source document (usually in XHTML format) to the target document (usually XML). Format). 3. Using rule learner to simplify the process of information extraction. The automatic transformation of the rules from the forum page to the final result enables users who do not have XSLT knowledge to quickly complete the task of data extraction. To sum up, we analyze the problems existing in the process of data acquisition, and design a InForCE system based on the data features of the forum. In this paper, we define the model of data extraction and the rules of learning pattern mapping by taking the fencing forum as an experiment. At present, the InForCE system can run successfully on the fencing forum and the search room forum, the forum pages obtained reach 380G, and the extracted forum data reaches 40G. finally, Experiments show that the system can crawl, extract and organize forum data efficiently.
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:TP393.092
【共引文獻】
相關期刊論文 前8條
1 李向陽,陸建江,張亞非;基于競爭分類的Web信息抽取[J];電子學報;2004年11期
2 李向陽;戴江山;張亞非;;一種Web信息抽取規(guī)則的優(yōu)化方法[J];蘭州理工大學學報;2006年01期
3 李永平,金莉;基于填充標記的自適應Web信息提取[J];華中科技大學學報(自然科學版);2003年11期
4 杜永萍;黃萱菁;吳立德;;模式學習在QA系統(tǒng)中的有效實現(xiàn)[J];計算機研究與發(fā)展;2006年03期
5 梁紅兵,楊銘魁,黃曉;基于反饋規(guī)則學習的醫(yī)學文獻主題自動標引方法[J];計算機工程;2003年11期
6 鐘敏娟;郝謙;劉云中;;基于多模板隱馬爾可夫模型的文本信息抽取算法[J];計算機工程;2006年02期
7 李向陽,張亞非;一種軍用文圖自動轉換方案[J];情報指揮控制系統(tǒng)與仿真技術;2004年05期
8 郭太飛;何潔月;;歸納學習XPATH Web信息提取規(guī)則[J];計算機技術與發(fā)展;2007年03期
相關會議論文 前10條
1 劉秉權;王喻紅;葛冬梅;李佳;;基于結構樹解析的網頁正文抽取方法[A];黑龍江省計算機學會2007年學術交流年會論文集[C];2007年
2 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
3 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網頁信息提取方法[A];全國網絡與信息安全技術研討會論文集(上冊)[C];2007年
4 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年
5 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學習方法[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
6 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
7 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
8 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八屆國際信號處理國際會議論文集[C];2006年
10 周劍輝;苑春法;黃錦輝;李文捷;;金融領域內信息抽取規(guī)則的自動獲取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
相關博士學位論文 前10條
1 俞方樺;互聯(lián)網信息資源整合研究[D];東華大學;2001年
2 陳治平;智能搜索引擎理論與應用研究[D];湖南大學;2003年
3 鄭桂華;基于網絡的語文校本課程研究與實踐[D];華東師范大學;2004年
4 鄧緒斌;面向復雜數(shù)據(jù)源的數(shù)據(jù)抽取模型和算法研究[D];復旦大學;2005年
5 杜永萍;基于模式知識庫的問題回答關鍵技術研究[D];復旦大學;2005年
6 耿煥同;范例推理與互聯(lián)網文本信息處理研究[D];中國科學技術大學;2006年
7 李曉黎;WEB信息檢索與分類中的數(shù)據(jù)采掘研究[D];中國科學院研究生院(計算技術研究所);2001年
8 賈自艷;Web信息智能獲取若干關鍵問題研究[D];中國科學院研究生院(計算技術研究所);2004年
9 姜吉發(fā);自由文本的信息抽取模式獲取的研究[D];中國科學院研究生院(計算技術研究所);2004年
10 黃友平;貝葉斯網絡研究[D];中國科學院研究生院(計算技術研究所);2005年
相關碩士學位論文 前10條
1 陳少飛;Web信息抽取規(guī)則的優(yōu)化及規(guī)則的XQuery表達[D];河北大學;2003年
2 易高翔;Web文本挖掘研究與實現(xiàn)[D];武漢科技大學;2004年
3 劉云中;基于隱馬爾可夫模型的文本信息抽取算法研究[D];湖南大學;2004年
4 呂行;基于XML的異構數(shù)據(jù)源集成系統(tǒng)研究與應用[D];河海大學;2004年
5 李躍進;基于Internet的信息抽取技術研究[D];大連理工大學;2005年
6 雷慶;識別和抽取Web中的關系信息及其出現(xiàn)模式[D];華僑大學;2005年
7 李智;基于樹結構的網頁數(shù)據(jù)自動抽取方法的研究與實現(xiàn)[D];吉林大學;2005年
8 張玉良;一種基于后綴樹的包裝器自動生成方法的研究[D];吉林大學;2005年
9 馬安香;基于分類語義的Web信息抽取機制的研究與實現(xiàn)[D];東北大學;2005年
10 葉娜;面向信息抽取的文本預處理和規(guī)則自動學習技術研究[D];東北大學;2005年
,本文編號:1594446
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1594446.html