天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于RSS源文本的自動文摘系統(tǒng)研究

發(fā)布時間:2018-06-22 00:03

  本文選題:自動文摘 + 機器學習; 參考:《浙江大學》2012年碩士論文


【摘要】:隨著網(wǎng)絡信息資源總量指數(shù)級的增長,如何在海量的數(shù)據(jù)中檢索信息并獲取主旨,是一個值得研究的問題。搜索引擎和RSS推送技術解決了信息的“源”問題,卻沒有很好的解決信息的“量”問題。自動文摘技術正是對信息進行壓縮和精煉的有效應用之一。自動文摘利用計算機技術,自動從原始文檔中抽取或總結(jié)出能夠反映文本中心內(nèi)容的簡短連貫短文,以幫助用戶快速、準確和全面的獲取信息主旨。 本文認為不同主題類型的新聞文摘具有不同形式的文本特征組合模型,因此應將文本自動分類結(jié)果作為自動文摘的前提。通過網(wǎng)頁抓取、網(wǎng)頁清洗和數(shù)據(jù)存儲構建分類語料庫,并在此基礎之上利用不同特征選擇算法和分類算法實現(xiàn)了自動歸類。提出文摘句的可能性(Probability)和可行性(Possibility)兩種度量方式,基于文摘語料庫的構建,采用基于回歸分析的有監(jiān)督機器學習算法(線性回歸和Logistic回歸)進行訓練學習,以確定文摘句特征組合模型的最優(yōu)參數(shù)。針對中文文本,提出改進型ROUGE-CN系列評價算法,用于對文摘句可能性的度量和對機器文摘的測評。 基于機器學習的自動文摘方法產(chǎn)生的文摘與基準文摘和Word文摘的對比實驗結(jié)果表明,以自動分類為前提,利用基于回歸分析的有監(jiān)督機器學習算法,能夠有效的提高機器文摘質(zhì)量。 以在線RSS數(shù)據(jù)源與基于回歸機器學習的自動文摘方法的結(jié)合作為創(chuàng)新點,最終設計和實現(xiàn)了基于RSS源文本的自動文摘系統(tǒng)。系統(tǒng)以在線RSS源文本為數(shù)據(jù)來源,利用正則表達式匹配的方式抽取原文元數(shù)據(jù)內(nèi)容,提供不同特征選擇算法、自動分類算法、機器學習算法和壓縮率選項,結(jié)合自動分類和自動文摘技術得出分類標簽并生成機器文摘,實現(xiàn)了新聞文摘與原文的在線雙重呈現(xiàn)。
[Abstract]:With the increase of the total amount of network information resources, how to retrieve the information and obtain the gist in the massive data is a problem worth studying. Search engine and RSS push technology solve the problem of "source" of information, but do not solve the problem of "quantity" of information well. Automatic abstract technology is one of the effective applications of information compression and refining. By using computer technology, automatic abstracts can automatically extract or summarize short and short texts that can reflect the text center content from the original documents, so as to help users to obtain the information purport quickly, accurately and comprehensively. This paper holds that news abstracts of different subject types have different forms of text feature combination model, so the results of automatic text classification should be taken as the premise of automatic summarization. The classification corpus is constructed by web crawling, page cleaning and data storage. On this basis, different feature selection algorithms and classification algorithms are used to realize automatic classification. Based on the construction of abstract corpus, a supervised machine learning algorithm based on regression analysis (linear regression and logistic regression) is proposed. In order to determine the optimal parameters of the abstract sentence feature combination model. For Chinese text, an improved evaluation algorithm of ROUGE-CN series is proposed, which can be used to measure the possibility of abstracting sentences and to evaluate machine abstracts. The experimental results show that the supervised machine learning algorithm based on regression analysis is based on automatic classification. Can effectively improve the quality of machine abstracts. Based on the combination of online RSS data source and automatic summarization method based on regression machine learning, an automatic abstracting system based on RSS source text is designed and implemented. The system takes the online RSS source text as the data source, extracts the original metadata content by regular expression matching, provides different feature selection algorithms, automatic classification algorithms, machine learning algorithms and compression ratio options. Combined with automatic classification and automatic summarization techniques, classification labels are obtained and machine abstracts are generated. The online dual presentation of news abstracts and original texts is realized.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前10條

1 秦進,陳笑蓉,汪維家,陸汝占;文本分類中的特征抽取[J];計算機應用;2003年02期

2 章芝青;;基于語義的單文檔自動摘要算法[J];計算機應用;2010年06期

3 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];計算機應用研究;2001年09期

4 羅文娟;馬慧芳;何清;史忠植;;權衡熵和相關度的自動摘要技術研究[J];中文信息學報;2011年05期

5 劉挺,吳巖,王開鑄;自動文摘綜述[J];情報科學;1998年01期

6 郭燕慧,鐘義信,馬志勇,姚均勇;自動文摘綜述[J];情報學報;2002年05期

7 譚種;陳躍新;;自動摘要方法綜述[J];情報學報;2008年01期

8 王永成,許慧敏;OA中文文獻自動摘要系統(tǒng)[J];情報學報;1997年02期

9 劉挺,王開鑄;自動文摘的四種主要方法[J];情報學報;1999年01期

10 伍玉偉;;RSS:網(wǎng)絡信息“聚合”利器[J];現(xiàn)代情報;2006年02期

相關碩士學位論文 前1條

1 吳中勤;英文多文檔查詢型自動文摘研究[D];復旦大學;2008年

,

本文編號:2050626

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2050626.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e0c5b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com