天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 數(shù)學論文 >

基于復雜網(wǎng)絡的文本關(guān)鍵詞提取分析平臺

發(fā)布時間:2018-03-31 06:42

  本文選題:提取 切入點:加權(quán)文本網(wǎng)絡 出處:《南京郵電大學》2017年碩士論文


【摘要】:隨著信息時代的到來以及互聯(lián)網(wǎng)的蓬勃發(fā)展,關(guān)鍵詞作為對文本主題的高度概括,成為用戶搜索信息必不可少的工具,如何快速有效地挖掘文本關(guān)鍵詞成為現(xiàn)今研究的熱點。而基于復雜網(wǎng)絡的文本關(guān)鍵詞提取作為最新的關(guān)鍵詞提取方法,學者們對其的研究也十分熱衷。本文將文本數(shù)據(jù)抽象為復雜網(wǎng)絡進行研究與分析,并構(gòu)建了關(guān)鍵詞提取分析平臺實現(xiàn)對文本關(guān)鍵詞的批量自動提取,主要成果如下:1.總結(jié)了國內(nèi)外學者對關(guān)鍵詞提取的研究概況,主要介紹了不同領(lǐng)域?qū)﹃P(guān)鍵詞提取的經(jīng)典方法,并分析了各類方法的局限性;針對現(xiàn)有的基于復雜網(wǎng)絡的文本關(guān)鍵詞提取算法進行研究,詳細介紹了復雜網(wǎng)絡常用的節(jié)點重要性衡量指標,包括常用的統(tǒng)計參數(shù)和相關(guān)算法,并對其進行對比分析。2.考慮到詞頻對文本主題的重要性,提出“詞頻分享權(quán)重”的概念,繼而提出了一種構(gòu)建加權(quán)文本網(wǎng)絡的新方法,將目標節(jié)點的詞頻值根據(jù)鄰居節(jié)點對其的重要度貢獻來分配給相應的連邊,從而實現(xiàn)對網(wǎng)絡的加權(quán),改善了目前已有研究大多基于“詞語在同一個句子中共現(xiàn)次數(shù)”為連邊加權(quán)的現(xiàn)狀。3.在構(gòu)建的加權(quán)文本網(wǎng)絡基礎(chǔ)上,結(jié)合人類語言特性引入位置權(quán)重系數(shù),基于PageRank算法提出了一種基于復雜網(wǎng)絡的文本關(guān)鍵詞提取算法LTWPR。利用該算法對采集的新浪新聞語料進行多類關(guān)鍵詞提取實驗,并將實驗結(jié)果與兩種經(jīng)典算法進行比較,驗證了該算法的準確性和有效性。同時從多方面說明LTWPR算法在挖掘文本的關(guān)鍵詞方面表現(xiàn)優(yōu)異,適用于大批量文本網(wǎng)絡關(guān)鍵節(jié)點挖掘。4.開發(fā)了一個基于復雜網(wǎng)絡的文本關(guān)鍵詞提取分析平臺,實現(xiàn)批量讀入文本數(shù)據(jù)、批量輸出文本關(guān)鍵詞。平臺具有界面簡潔友好、操作便捷、可擴展性強的優(yōu)勢,能夠較好地批量處理文本數(shù)據(jù)、仿真各類文本關(guān)鍵詞提取算法并將結(jié)果與作者標注的關(guān)鍵詞進行對比等功能。平臺較好地集成了本課題的研究成果,有助于快捷直觀地進行文本關(guān)鍵詞提取研究,具有良好的工程實用性。
[Abstract]:With the arrival of the information age and the vigorous development of the Internet, keywords, as a highly summary of text topics, have become an indispensable tool for users to search for information. How to quickly and effectively mine text keywords has become a hot topic in today's research, and text keyword extraction based on complex network is the latest keyword extraction method. In this paper, the text data is abstracted into a complex network for research and analysis, and a keyword extraction and analysis platform is constructed to realize the automatic batch extraction of text keywords. The main results are as follows: 1. Summarize the domestic and foreign scholars' research on keyword extraction, mainly introduce the classical methods of keyword extraction in different fields, and analyze the limitations of all kinds of methods. Based on the existing text keyword extraction algorithm based on complex network, this paper introduces the commonly used node importance measurement index, including the commonly used statistical parameters and related algorithms. Considering the importance of word frequency to text topic, the concept of "word frequency sharing weight" is put forward, and then a new method of constructing weighted text network is proposed. The word frequency value of the target node is assigned to the corresponding connected edges according to the importance contribution of the neighbor node to the target node, thus the weighting of the network is realized. It improves the current situation that most of the previous studies are based on "the number of occurrences of words in the same sentence" as continuous edge weighting. 3. On the basis of the weighted text network constructed, the position weight coefficient is introduced in combination with the human language characteristics. Based on the PageRank algorithm, a text keyword extraction algorithm based on complex network is proposed. The algorithm is used to carry out multi-class keyword extraction experiments on the collected Sina news corpus, and the experimental results are compared with the two classical algorithms. The accuracy and validity of the algorithm are verified. At the same time, the LTWPR algorithm is proved to be excellent in mining the keywords of text from many aspects. A text keyword extraction and analysis platform based on complex network is developed, which can read text data in batches and output text keywords in batches. The platform has a simple and friendly interface. It has the advantages of convenient operation and strong expansibility, and can process text data in batches. Simulation of all kinds of text keyword extraction algorithms and compare the results with the key words annotated by the author. The platform integrates the research results of this topic well, which is helpful for the research of text keyword extraction quickly and intuitively. It has good engineering practicability.
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;O157.5

【參考文獻】

相關(guān)期刊論文 前10條

1 李方馨;李成城;;中文微博自動文摘生成方法[J];軟件導刊;2016年05期

2 王俊麗;魏紹臣;管敏;;基于圖排序算法的自動文摘研究綜述[J];計算機科學;2015年12期

3 劉通;;基于復雜網(wǎng)絡的文本關(guān)鍵詞提取算法研究[J];計算機應用研究;2016年02期

4 李鵬;屈丹;;采用詞圖相交融合的語音關(guān)鍵詞檢測方法[J];信號處理;2015年06期

5 楊鵬;謝磊;張艷寧;;低資源語言的無監(jiān)督語音關(guān)鍵詞檢測技術(shù)綜述[J];中國圖象圖形學報;2015年02期

6 姜芳;李國和;岳翔;;基于語義的文檔關(guān)鍵詞提取方法[J];計算機應用研究;2015年01期

7 任曉龍;呂琳媛;;網(wǎng)絡重要節(jié)點排序方法綜述[J];科學通報;2014年13期

8 劉建國;任卓明;郭強;汪秉宏;;復雜網(wǎng)絡中節(jié)點重要性排序的研究進展[J];物理學報;2013年17期

9 唐俊;;復雜網(wǎng)絡在新聞網(wǎng)頁關(guān)鍵詞提取中的應用[J];云南民族大學學報(自然科學版);2012年04期

10 王立霞;淮曉永;;基于語義的中文文本關(guān)鍵詞提取算法[J];計算機工程;2012年01期

相關(guān)博士學位論文 前2條

1 瞿澤輝;復雜網(wǎng)絡及其在信息領(lǐng)域中的應用[D];電子科技大學;2011年

2 孫成立;語音關(guān)鍵詞識別技術(shù)的研究[D];北京郵電大學;2008年

相關(guān)碩士學位論文 前9條

1 曹洋;基于TextRank算法的單文檔自動文摘研究[D];南京大學;2016年

2 楊凱艷;基于改進的TFIDF關(guān)鍵詞自動提取算法研究[D];湘潭大學;2015年

3 南江霞;中文文本自動標注技術(shù)研究及其應用[D];北京郵電大學;2015年

4 楊春艷;基于語義和引用加權(quán)的文獻主題提取研究[D];浙江大學;2015年

5 吳樹瑜;基于關(guān)鍵詞的信息檢索系統(tǒng)的研究[D];電子科技大學;2014年

6 戴曉罡;復雜網(wǎng)絡中的社團劃分算法研究[D];南京郵電大學;2014年

7 左曉飛;基于復雜網(wǎng)絡的關(guān)鍵詞提取研究[D];西安電子科技大學;2013年

8 溫安國;基于詞語網(wǎng)絡的關(guān)鍵詞自動提取方法及在中文網(wǎng)頁分類中的應用研究[D];復旦大學;2009年

9 何鐘莉;中文文本分類關(guān)鍵技術(shù)研究與實現(xiàn)[D];西安電子科技大學;2009年



本文編號:1689622

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/1689622.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72dd6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com