天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

AdaTextTiling:一種基于TextTiling算法改進的自適應文本分割技術

發(fā)布時間:2018-03-23 04:21

  本文選題:文本分割 切入點:TextTiling算法 出處:《華東師范大學》2017年碩士論文 論文類型:學位論文


【摘要】:伴隨著計算機在日常生活中的逐漸普及,整個社會的信息科技得到迅猛地發(fā)展,互聯網信息化程度也不斷提高。通過互聯網,人們可以非常方便的掌握世界范圍內的各種信息,以及與各個地方的人進行信息互動,可以說互聯網帶給我們更加便捷、高效的信息化生活。而人們的頻繁使用也帶來了龐大的互聯網數據資源,這些數據資源蘊含著極高的挖掘價值,其中文本數據就是占比非常大的互聯網數據資源,而文本挖掘就是從豐富的文本數據資源中挖掘出有價值的信息。文本分割作為文本挖掘的一個重要分支,在文本信息挖掘方面也有相當重要的作用。文本分割指的是將一整篇文本看成由多個子主題文本段組成的,然后運用相關方法將一整篇文本分割成多個分割片段,每個文本片段都對應著一個子主題。文本分割的算法有很多,TextTiling算法就是比較經典的文本分割算法。本文主要是對經典的TextTiling算法進行改進,提出分割性能更好的AdaTextTil-ing算法,用于更好地對文本進行分割。本文首先是對TextTiling算法進行分析,掌握TextTiling算法的算法原理以及分析算法的不足之處,接著是進行優(yōu)化,其中主要的一點是計算潛在分割點兩邊文本相似度時會靈活地調整文本窗口長度,因為本文認為每一個潛在分割點的最優(yōu)文本窗口長度不是固定不變的。同時,本文還對TextTiling算法實現上的計算邏輯進行分析優(yōu)化,提高算法計算效率,并在此基礎上結合LDA主題模型進一步優(yōu)化。最后通過實驗,本文發(fā)現AdaTextTiling算法性能上要明顯優(yōu)于TextTiling算法,從而說明了 AdaTextTiling算法的有效性。
[Abstract]:With the gradual popularization of computers in daily life, the information technology of the whole society has been developed rapidly, and the information level of the Internet has been continuously improved. Through the Internet, people can easily grasp all kinds of information in the world. And information interaction with people in various places, it can be said that the Internet has brought us more convenient and efficient information life. And the frequent use of people has also brought huge Internet data resources. These data resources contain very high mining value, in which text data is a very large proportion of Internet data resources. Text mining is to mine valuable information from rich text data resources. Text segmentation is an important branch of text mining. Text segmentation means that a whole text is considered to be composed of multiple sub-topic text segments, and then the whole text is divided into multiple segmented segments by using relevant methods. Each text fragment corresponds to a subtopic. There are many text segmentation algorithms, which are the classical text segmentation algorithm. This paper mainly improves the classical TextTiling algorithm and proposes a better AdaTextTil-ing algorithm with better segmentation performance. This paper is to analyze the TextTiling algorithm, master the principle of the TextTiling algorithm and analyze the shortcomings of the algorithm, and then optimize the algorithm. The main point is that the text window length can be adjusted flexibly when calculating the text similarity between two potential segmentation points, because the optimal text window length of each potential segmentation point is not fixed. At the same time, This paper also analyzes and optimizes the computational logic in the implementation of TextTiling algorithm, improves the efficiency of the algorithm, and further optimizes the algorithm combined with the LDA topic model. Finally, through experiments, it is found that the performance of AdaTextTiling algorithm is obviously better than that of TextTiling algorithm. Thus, the effectiveness of AdaTextTiling algorithm is illustrated.
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前7條

1 程志華;倪時龍;黃文思;龔賀;;企業(yè)級非結構化數據管理平臺研究及實踐[J];電力信息化;2012年03期

2 何佳;周長勝;石顯鋒;;網絡輿情監(jiān)控系統的實現方法[J];鄭州大學學報(理學版);2010年01期

3 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動化學報;2009年12期

4 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機學報;2008年10期

5 朱靖波;葉娜;羅海濤;;基于多元判別分析的文本分割模型[J];軟件學報;2007年03期

6 石晶;戴國忠;;基于PLSA模型的文本分割[J];計算機研究與發(fā)展;2007年02期

7 秦兵,劉挺,李生;多文檔自動文摘綜述[J];中文信息學報;2005年06期

相關博士學位論文 前1條

1 葉娜;文本分割關鍵技術及其在多文檔摘要中的應用研究[D];東北大學;2008年

相關碩士學位論文 前4條

1 李效晉;基于統計模型的文本分割方法及其改進[D];山東大學;2014年

2 康東;中文文本挖掘基本理論與應用[D];蘇州大學;2014年

3 王漪;文本挖掘技術的研究及其在教學平臺中的應用[D];北京交通大學;2014年

4 王允;網絡輿情數據獲取與話題分析技術研究[D];解放軍信息工程大學;2010年

,

本文編號:1651881

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1651881.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶871f5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com