基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取分析平臺(tái)
本文選題:提取 切入點(diǎn):加權(quán)文本網(wǎng)絡(luò) 出處:《南京郵電大學(xué)》2017年碩士論文
【摘要】:隨著信息時(shí)代的到來(lái)以及互聯(lián)網(wǎng)的蓬勃發(fā)展,關(guān)鍵詞作為對(duì)文本主題的高度概括,成為用戶搜索信息必不可少的工具,如何快速有效地挖掘文本關(guān)鍵詞成為現(xiàn)今研究的熱點(diǎn)。而基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取作為最新的關(guān)鍵詞提取方法,學(xué)者們對(duì)其的研究也十分熱衷。本文將文本數(shù)據(jù)抽象為復(fù)雜網(wǎng)絡(luò)進(jìn)行研究與分析,并構(gòu)建了關(guān)鍵詞提取分析平臺(tái)實(shí)現(xiàn)對(duì)文本關(guān)鍵詞的批量自動(dòng)提取,主要成果如下:1.總結(jié)了國(guó)內(nèi)外學(xué)者對(duì)關(guān)鍵詞提取的研究概況,主要介紹了不同領(lǐng)域?qū)﹃P(guān)鍵詞提取的經(jīng)典方法,并分析了各類方法的局限性;針對(duì)現(xiàn)有的基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法進(jìn)行研究,詳細(xì)介紹了復(fù)雜網(wǎng)絡(luò)常用的節(jié)點(diǎn)重要性衡量指標(biāo),包括常用的統(tǒng)計(jì)參數(shù)和相關(guān)算法,并對(duì)其進(jìn)行對(duì)比分析。2.考慮到詞頻對(duì)文本主題的重要性,提出“詞頻分享權(quán)重”的概念,繼而提出了一種構(gòu)建加權(quán)文本網(wǎng)絡(luò)的新方法,將目標(biāo)節(jié)點(diǎn)的詞頻值根據(jù)鄰居節(jié)點(diǎn)對(duì)其的重要度貢獻(xiàn)來(lái)分配給相應(yīng)的連邊,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的加權(quán),改善了目前已有研究大多基于“詞語(yǔ)在同一個(gè)句子中共現(xiàn)次數(shù)”為連邊加權(quán)的現(xiàn)狀。3.在構(gòu)建的加權(quán)文本網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合人類語(yǔ)言特性引入位置權(quán)重系數(shù),基于PageRank算法提出了一種基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法LTWPR。利用該算法對(duì)采集的新浪新聞?wù)Z料進(jìn)行多類關(guān)鍵詞提取實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與兩種經(jīng)典算法進(jìn)行比較,驗(yàn)證了該算法的準(zhǔn)確性和有效性。同時(shí)從多方面說(shuō)明LTWPR算法在挖掘文本的關(guān)鍵詞方面表現(xiàn)優(yōu)異,適用于大批量文本網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)挖掘。4.開(kāi)發(fā)了一個(gè)基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取分析平臺(tái),實(shí)現(xiàn)批量讀入文本數(shù)據(jù)、批量輸出文本關(guān)鍵詞。平臺(tái)具有界面簡(jiǎn)潔友好、操作便捷、可擴(kuò)展性強(qiáng)的優(yōu)勢(shì),能夠較好地批量處理文本數(shù)據(jù)、仿真各類文本關(guān)鍵詞提取算法并將結(jié)果與作者標(biāo)注的關(guān)鍵詞進(jìn)行對(duì)比等功能。平臺(tái)較好地集成了本課題的研究成果,有助于快捷直觀地進(jìn)行文本關(guān)鍵詞提取研究,具有良好的工程實(shí)用性。
[Abstract]:With the arrival of the information age and the vigorous development of the Internet, keywords, as a highly summary of text topics, have become an indispensable tool for users to search for information. How to quickly and effectively mine text keywords has become a hot topic in today's research, and text keyword extraction based on complex network is the latest keyword extraction method. In this paper, the text data is abstracted into a complex network for research and analysis, and a keyword extraction and analysis platform is constructed to realize the automatic batch extraction of text keywords. The main results are as follows: 1. Summarize the domestic and foreign scholars' research on keyword extraction, mainly introduce the classical methods of keyword extraction in different fields, and analyze the limitations of all kinds of methods. Based on the existing text keyword extraction algorithm based on complex network, this paper introduces the commonly used node importance measurement index, including the commonly used statistical parameters and related algorithms. Considering the importance of word frequency to text topic, the concept of "word frequency sharing weight" is put forward, and then a new method of constructing weighted text network is proposed. The word frequency value of the target node is assigned to the corresponding connected edges according to the importance contribution of the neighbor node to the target node, thus the weighting of the network is realized. It improves the current situation that most of the previous studies are based on "the number of occurrences of words in the same sentence" as continuous edge weighting. 3. On the basis of the weighted text network constructed, the position weight coefficient is introduced in combination with the human language characteristics. Based on the PageRank algorithm, a text keyword extraction algorithm based on complex network is proposed. The algorithm is used to carry out multi-class keyword extraction experiments on the collected Sina news corpus, and the experimental results are compared with the two classical algorithms. The accuracy and validity of the algorithm are verified. At the same time, the LTWPR algorithm is proved to be excellent in mining the keywords of text from many aspects. A text keyword extraction and analysis platform based on complex network is developed, which can read text data in batches and output text keywords in batches. The platform has a simple and friendly interface. It has the advantages of convenient operation and strong expansibility, and can process text data in batches. Simulation of all kinds of text keyword extraction algorithms and compare the results with the key words annotated by the author. The platform integrates the research results of this topic well, which is helpful for the research of text keyword extraction quickly and intuitively. It has good engineering practicability.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;O157.5
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李方馨;李成城;;中文微博自動(dòng)文摘生成方法[J];軟件導(dǎo)刊;2016年05期
2 王俊麗;魏紹臣;管敏;;基于圖排序算法的自動(dòng)文摘研究綜述[J];計(jì)算機(jī)科學(xué);2015年12期
3 劉通;;基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用研究;2016年02期
4 李鵬;屈丹;;采用詞圖相交融合的語(yǔ)音關(guān)鍵詞檢測(cè)方法[J];信號(hào)處理;2015年06期
5 楊鵬;謝磊;張艷寧;;低資源語(yǔ)言的無(wú)監(jiān)督語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)綜述[J];中國(guó)圖象圖形學(xué)報(bào);2015年02期
6 姜芳;李國(guó)和;岳翔;;基于語(yǔ)義的文檔關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用研究;2015年01期
7 任曉龍;呂琳媛;;網(wǎng)絡(luò)重要節(jié)點(diǎn)排序方法綜述[J];科學(xué)通報(bào);2014年13期
8 劉建國(guó);任卓明;郭強(qiáng);汪秉宏;;復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)重要性排序的研究進(jìn)展[J];物理學(xué)報(bào);2013年17期
9 唐俊;;復(fù)雜網(wǎng)絡(luò)在新聞網(wǎng)頁(yè)關(guān)鍵詞提取中的應(yīng)用[J];云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
10 王立霞;淮曉永;;基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2012年01期
相關(guān)博士學(xué)位論文 前2條
1 瞿澤輝;復(fù)雜網(wǎng)絡(luò)及其在信息領(lǐng)域中的應(yīng)用[D];電子科技大學(xué);2011年
2 孫成立;語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)的研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前9條
1 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年
2 楊凱艷;基于改進(jìn)的TFIDF關(guān)鍵詞自動(dòng)提取算法研究[D];湘潭大學(xué);2015年
3 南江霞;中文文本自動(dòng)標(biāo)注技術(shù)研究及其應(yīng)用[D];北京郵電大學(xué);2015年
4 楊春艷;基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
5 吳樹(shù)瑜;基于關(guān)鍵詞的信息檢索系統(tǒng)的研究[D];電子科技大學(xué);2014年
6 戴曉罡;復(fù)雜網(wǎng)絡(luò)中的社團(tuán)劃分算法研究[D];南京郵電大學(xué);2014年
7 左曉飛;基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D];西安電子科技大學(xué);2013年
8 溫安國(guó);基于詞語(yǔ)網(wǎng)絡(luò)的關(guān)鍵詞自動(dòng)提取方法及在中文網(wǎng)頁(yè)分類中的應(yīng)用研究[D];復(fù)旦大學(xué);2009年
9 何鐘莉;中文文本分類關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
,本文編號(hào):1689622
本文鏈接:http://sikaile.net/kejilunwen/yysx/1689622.html