Web文本自動(dòng)文摘的研究
本文選題:Web正文抽取 切入點(diǎn):主題分析 出處:《大連理工大學(xué)》2012年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)頁(yè)已成為最重要的信息資源,但隨之而來(lái)的是“信息爆炸”的問(wèn)題。除了描述網(wǎng)頁(yè)主題的正文信息外,Web網(wǎng)頁(yè)中往往還包含一些導(dǎo)航條、廣告鏈接及版權(quán)等垃圾信息,如何在浩瀚的網(wǎng)絡(luò)中快速而又準(zhǔn)確地找到用戶(hù)所需要的信息是一個(gè)迫切需要解決的問(wèn)題。文摘是對(duì)文本的濃縮與提煉,讀者可以通過(guò)對(duì)文摘的閱讀來(lái)有效地決定是否有必要閱讀全文,從而節(jié)省寶貴的時(shí)間與精力。 Web自動(dòng)文摘的基礎(chǔ)是Web正文信息的抽取,同時(shí)它也是信息檢索、文本挖掘等其他Web信息處理工作的基礎(chǔ)。在總結(jié)與分析現(xiàn)有研究方法的基礎(chǔ)上,本文統(tǒng)計(jì)分析了主題網(wǎng)頁(yè)的正文信息特征及頁(yè)面結(jié)構(gòu)特征,提出了一種結(jié)合HTML標(biāo)簽與網(wǎng)頁(yè)正文信息特征的主題網(wǎng)頁(yè)正文信息抽取方法。首先將Web頁(yè)面解析成DOM樹(shù),根據(jù)正文信息特征獲取正文信息塊在頁(yè)面DOM樹(shù)中的位置,進(jìn)一步分析正文信息塊塊內(nèi)噪音信息的特點(diǎn),去除塊內(nèi)噪音信息。該方法不需事先進(jìn)行樣本學(xué)習(xí),具有一定適應(yīng)能力,且考慮了噪音的處理,抽取準(zhǔn)確率高。在此基礎(chǔ)上,結(jié)合基于理解生成文摘的方法與基于結(jié)構(gòu)的自動(dòng)文摘方法,針對(duì)主題句抽取時(shí)完整性差的問(wèn)題,在對(duì)文本進(jìn)行主題分割的基礎(chǔ)上,為每個(gè)子主題構(gòu)建句子關(guān)系圖,采用基于圖的PageRank算法對(duì)分別每個(gè)關(guān)系圖中的句子排序,按照一定的抽取規(guī)則獲取每個(gè)子主題的主題句,該方法確保了抽取出的句子是對(duì)文本中每個(gè)主題語(yǔ)義覆蓋最廣的句子。 文章最后設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web文摘抽取系統(tǒng),選用網(wǎng)絡(luò)上的真實(shí)語(yǔ)料進(jìn)行實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與現(xiàn)有類(lèi)似方法進(jìn)行比較與分析。首先對(duì)本文提出的Web正文抽取方法的實(shí)驗(yàn)分析,選取來(lái)自5個(gè)不同網(wǎng)站的500個(gè)網(wǎng)頁(yè)進(jìn)行實(shí)驗(yàn),用準(zhǔn)確率及召回率兩個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)與分析。然后對(duì)文摘抽取方法進(jìn)行評(píng)價(jià)分析,實(shí)驗(yàn)表明,本文提出的算法抽取準(zhǔn)確率高、主題覆蓋性好。
[Abstract]:With the rapid development of Internet technology, web pages have become the most important information resource, but the problem of "information explosion" follows. How to find the information users need quickly and accurately in the vast network is an urgent problem, such as advertising links and copyrights. Readers can effectively decide whether it is necessary to read the full text by reading abstracts, thus saving valuable time and energy. The basis of Web automatic abstract is the extraction of Web text information, and it is also the basis of other Web information processing work, such as information retrieval, text mining and so on. In this paper, the text information features and page structure features of theme pages are statistically analyzed, and a method of extracting subject page text information combining HTML tags and page text information features is proposed. Firstly, the Web pages are parsed into DOM tree. According to the feature of text information, the position of the block of text information in the DOM tree of the page is obtained, and the characteristics of the noise information in the block of text information are further analyzed, and the noise information in the block is removed. Considering the noise processing, the extraction accuracy is high. On the basis of this, combining the method of generating abstract based on understanding with the method of automatic summarization based on structure, the problem of poor integrity of topic sentence extraction is discussed. On the basis of topic segmentation of text, sentence relation graph is constructed for each sub-topic. PageRank algorithm based on graph is used to sort sentences in each relational graph, and the topic sentences of each sub-topic are obtained according to certain extraction rules. This method ensures that the extracted sentence is the one with the widest semantic coverage for each topic in the text. In the end of this paper, a Web abstract extraction system is designed and implemented. The experimental results are compared and analyzed with the existing similar methods. Firstly, the experimental analysis of the Web text extraction method proposed in this paper is carried out, and 500 web pages from five different websites are selected for the experiment. The experimental results are evaluated and analyzed by using the two indexes of accuracy and recall, and then the abstract extraction method is evaluated and analyzed. The experimental results show that the proposed algorithm has high accuracy and good topic coverage.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李玉擰;操衛(wèi)平;周蘭珍;;結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報(bào);2008年04期
2 劉大明;關(guān)于改進(jìn)本刊論文摘要寫(xiě)法的建議[J];長(zhǎng)江科學(xué)院院報(bào);1999年01期
3 楊思春;;一種改進(jìn)的句子相似度計(jì)算模型[J];電子科技大學(xué)學(xué)報(bào);2006年06期
4 金博,史彥軍,滕弘飛;基于語(yǔ)義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報(bào);2005年02期
5 趙巾幗;徐德智;羅慶云;;漢語(yǔ)句子相似度計(jì)算方法比對(duì)之研究[J];福建電腦;2007年10期
6 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
7 王繼成 ,武港山 ,周源遠(yuǎn) ,張福炎;一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動(dòng)摘要方法[J];計(jì)算機(jī)研究與發(fā)展;2003年03期
8 馬穎華,王永成,蘇貴洋,張宇萌;一種基于字同現(xiàn)頻率的漢語(yǔ)文本主題抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2003年06期
9 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
10 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁(yè)正文提取算法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期
相關(guān)碩士學(xué)位論文 前7條
1 李輝;基于語(yǔ)義關(guān)系的摘要提取[D];南京理工大學(xué);2004年
2 何媛媛;基于潛在語(yǔ)義分析的多網(wǎng)頁(yè)自動(dòng)文摘研究[D];上海師范大學(xué);2008年
3 江娟;垂直搜索引擎數(shù)據(jù)分析技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年
4 劉秋水;Web信息抽取與網(wǎng)頁(yè)摘要的研究與應(yīng)用[D];大連理工大學(xué);2008年
5 肖欣延;基于詞匯鏈和PageRank的多文檔自動(dòng)文摘研究[D];廈門(mén)大學(xué);2008年
6 何維;基于多示例學(xué)習(xí)的中文文本表示及分類(lèi)研究[D];大連理工大學(xué);2009年
7 莊重;WEB信息抽取的研究[D];湖北工業(yè)大學(xué);2009年
,本文編號(hào):1697562
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1697562.html