基于Web的動態(tài)評論抽取技術(shù)研究
本文關(guān)鍵詞: 信息抽取 動態(tài)頁面 Chrome LFSU DOM 出處:《沈陽航空航天大學》2014年碩士論文 論文類型:學位論文
【摘要】:Web2.0時代的到來推動互聯(lián)網(wǎng)由過去的信息發(fā)布平臺轉(zhuǎn)變?yōu)槿缃竦男畔⒔换テ脚_,在這一平臺上人們可以就自己感興趣的話題發(fā)表意見、參與討論并形成輿論效應(yīng),其中不乏惡意利用網(wǎng)絡(luò)輿論者,因此輿情分析工作也越來越受到重視,而Web信息抽取則是輿情分析的基礎(chǔ)工作。 Web信息抽取是從無結(jié)構(gòu)或半結(jié)構(gòu)的網(wǎng)頁中抽取特定信息的結(jié)構(gòu)化描述。本文介紹了web信息抽取技術(shù)現(xiàn)狀,針對現(xiàn)有技術(shù)對網(wǎng)頁結(jié)構(gòu)敏感、動態(tài)多級評論抽取研究較少等問題設(shè)計了一種半自動的信息抽取系統(tǒng),該系統(tǒng)主要分為信息源獲取與評論抽取兩大模塊。信息源獲取模塊是基于Chrome插件技術(shù)、利用瀏覽器API與消息傳遞機制開發(fā)的頁面抓取工具,實現(xiàn)了動態(tài)頁面完整內(nèi)容的自動獲取。評論抽取模塊基于動態(tài)頁面的視覺、結(jié)構(gòu)、語義特征提出了LFSU概念,,利用其定位性質(zhì)進行不同評論組織模型下的評論區(qū)域識別,并給出了單級評論與多級評論的抽取方法。該信息抽取方法利用少數(shù)DOM樹信息,并且不涉及復雜結(jié)構(gòu)比對與聚類分析,算法效率高。 通過實際環(huán)境下覆蓋性實驗結(jié)果分析發(fā)現(xiàn),該信息抽取方法滿足了博客輿情數(shù)據(jù)實際分析需求,對于評論數(shù)量大于1的頁面有很好的抽取效果。其查全率、查準率和F值均達到92%以上。
[Abstract]:The advent of the Web2.0 era has transformed the Internet from a former information publishing platform to a modern information exchange platform, where people can express their views on topics of interest to themselves, participate in discussions and form a public opinion effect. Many of them use public opinion maliciously, so more and more attention is paid to the analysis of public opinion, and Web information extraction is the basic work of public opinion analysis. Web information extraction is a structured description of extracting specific information from unstructured or semi-structured web pages. This paper introduces the present situation of web information extraction technology. A semi-automatic information extraction system is designed for dynamic multi-level comment extraction, which is mainly divided into two modules: information source extraction and comment extraction. The information source extraction module is based on Chrome plug-in technology. A page capture tool developed by browser API and message passing mechanism is used to realize the automatic acquisition of the complete content of dynamic pages. The comment extraction module is based on the visual structure and semantic features of dynamic pages and puts forward the concept of LFSU. Using its localization property to identify comment regions under different comment organization models, a method of extracting single and multilevel comments is presented. This information extraction method uses a few DOM tree information. The algorithm is efficient and does not involve complex structure alignment and clustering analysis. By analyzing the results of overlay experiments in actual environment, it is found that this information extraction method meets the demand of actual analysis of blog public opinion data, and has a good extraction effect for pages with a number of comments greater than 1. The precision rate and F value were above 92%.
【學位授予單位】:沈陽航空航天大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.09;TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
2 于志良;;基于Ajax技術(shù)的Chrome擴展開發(fā)[J];電腦知識與技術(shù);2011年27期
3 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測中的應(yīng)用[J];中國國境衛(wèi)生檢疫雜志;2012年04期
4 譚力;楊宗源;謝瑾奎;;Ajax技術(shù)的數(shù)據(jù)響應(yīng)優(yōu)化[J];計算機工程;2010年07期
5 徐文杰;陳慶奎;;增量更新并行W eb爬蟲系統(tǒng)[J];計算機應(yīng)用;2009年04期
6 范純龍;夏佳;肖昕;呂紅偉;徐蕾;;基于功能語義單元的博客評論抽取技術(shù)[J];計算機應(yīng)用;2011年09期
7 郭浩;陸余良;劉金紅;;一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法[J];計算機應(yīng)用研究;2009年11期
8 李烯;徐朝軍;;基于分塊和統(tǒng)計相結(jié)合的新聞?wù)某槿J];情報理論與實踐;2010年01期
9 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學報;2009年05期
10 熊文;熊淑華;孫旭;張朝陽;;Ajax技術(shù)在Web2.0網(wǎng)站設(shè)計中的應(yīng)用研究[J];計算機技術(shù)與發(fā)展;2012年03期
本文編號:1520034
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1520034.html