基于圖模型的關(guān)鍵詞抽取研究
發(fā)布時(shí)間:2021-05-14 18:13
目前互聯(lián)網(wǎng)上文本數(shù)量飛快增長(zhǎng),檢索導(dǎo)某個(gè)用戶有關(guān)的信息非常復(fù)雜。目前研究人員已經(jīng)做了許多與信息檢索和文本分析有關(guān)的工作來(lái)克服這類問(wèn)題,這是一項(xiàng)關(guān)于關(guān)鍵字提取的熱門研究課題。用于觀察和分析的數(shù)據(jù)可能有很多類型,如圖片和其他形式。用戶還可能通過(guò)社交媒體、維基百科或其他途徑來(lái)產(chǎn)生數(shù)據(jù)。大多數(shù)人在推特平臺(tái)上產(chǎn)生導(dǎo)本人有關(guān)的數(shù)據(jù)(推特是一個(gè)社交媒體平臺(tái),是最流行的短文本獲取平臺(tái)之一,因?yàn)槊織l推特消息最多包含140個(gè)字符)。關(guān)鍵字提取是一個(gè)向計(jì)算機(jī)輸入文本,然后計(jì)算機(jī)根據(jù)文本內(nèi)容返回一組相關(guān)的關(guān)鍵字和短語(yǔ)的過(guò)程。關(guān)鍵字提取有助于讀者在不閱讀整個(gè)文檔的情況下理解文檔的大概內(nèi)容或至少是核心思想。這樣潛在的讀者就不會(huì)浪費(fèi)寶貴的時(shí)間去認(rèn)真閱讀不感興趣的文檔。通常,用戶可以通過(guò)搜索關(guān)鍵字找到與特定事件相關(guān)的文章。關(guān)鍵詞提取方法在許多領(lǐng)域得到了廣泛的應(yīng)用,尤其是在信息檢索領(lǐng)域中提取關(guān)鍵詞時(shí)。這是一個(gè)特別有潛力的應(yīng)用,因?yàn)槿藗儠?huì)根據(jù)關(guān)鍵字檢索重要的信息。在這篇論文中,我們?cè)趶耐铺厣鲜占瘉?lái)的四個(gè)不同主題的數(shù)據(jù)集上使用了一個(gè)基于圖的關(guān)鍵字提取算法。通過(guò)NLTK對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,我們可以得到優(yōu)化后的數(shù)據(jù),并由此生成...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
ACKNOWLEDGEMENT
ABSTRACT
摘要
Chapter 1 Introduction
1.1 Overview
1.2 Problem Definition
1.3 Scope of Proposed Work
1.4 Thesis Outline
Chapter 2 Preliminaries
2.1 Introduction
Chapter 3 Literature Review
Chapter 4 Keyword Extraction Using a Graph-Based Approach
4.1 Introduction
4.2 Why Graph-based approach?
4.3 Co-occurrence Graph
4.4 TextRank Algorithm
4.5 Generating Graph-based Data
4.5.1 Crawling Data from Twitter
4.5.2 Pre-Processing of Tweets
4.5.3 Construction of Co-occurrence Graph
4.5.4 Normalization of Matrix
4.5.5 Keyword Extraction
4.5.6 Calculating Precision
4.5.7 Constructing Word-Cloud
Chapter 5 Experimental Setup and Results
5.1 Introduction
5.2 Creating Dataset
5.3 Implementation of TextRank Algorithm
5.4 Precision
5.5 Word Cloud
Chapter 6 Conclusion and Future Work
References
【參考文獻(xiàn)】:
期刊論文
[1]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2013(09)
[2]Tag-TextRank:一種基于Tag的網(wǎng)頁(yè)關(guān)鍵詞抽取方法[J]. 李鵬,王斌,石志偉,崔雅超,李恒訓(xùn). 計(jì)算機(jī)研究與發(fā)展. 2012(11)
本文編號(hào):3186100
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
ACKNOWLEDGEMENT
ABSTRACT
摘要
Chapter 1 Introduction
1.1 Overview
1.2 Problem Definition
1.3 Scope of Proposed Work
1.4 Thesis Outline
Chapter 2 Preliminaries
2.1 Introduction
Chapter 3 Literature Review
Chapter 4 Keyword Extraction Using a Graph-Based Approach
4.1 Introduction
4.2 Why Graph-based approach?
4.3 Co-occurrence Graph
4.4 TextRank Algorithm
4.5 Generating Graph-based Data
4.5.1 Crawling Data from Twitter
4.5.2 Pre-Processing of Tweets
4.5.3 Construction of Co-occurrence Graph
4.5.4 Normalization of Matrix
4.5.5 Keyword Extraction
4.5.6 Calculating Precision
4.5.7 Constructing Word-Cloud
Chapter 5 Experimental Setup and Results
5.1 Introduction
5.2 Creating Dataset
5.3 Implementation of TextRank Algorithm
5.4 Precision
5.5 Word Cloud
Chapter 6 Conclusion and Future Work
References
【參考文獻(xiàn)】:
期刊論文
[1]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2013(09)
[2]Tag-TextRank:一種基于Tag的網(wǎng)頁(yè)關(guān)鍵詞抽取方法[J]. 李鵬,王斌,石志偉,崔雅超,李恒訓(xùn). 計(jì)算機(jī)研究與發(fā)展. 2012(11)
本文編號(hào):3186100
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3186100.html
最近更新
教材專著