基于新聞文本的關鍵詞提取
發(fā)布時間:2021-03-08 07:22
隨著信息化時代的到來,文本分析成為當今的熱門話題之一。文本分析主要是從海量文本數(shù)據(jù)中提取有意義的信息作為文本特征,通過分析文本數(shù)據(jù)的特征,實現(xiàn)對文本數(shù)據(jù)的應用與研究。自然語言處理是實現(xiàn)智能化文本分析的重要途徑。其中,關鍵詞提取是自然語言處理的一項研究熱點,也是本文我所研究的重點。中文文本分析主要是通過對文本的表示和文本特征的提取,來實現(xiàn)文本分類、聚類、信息檢索等工作。把從文本中提取處理的重要特征量化是文本分析的基礎工作。關鍵詞即是文本數(shù)據(jù)需要處理的重要特征,是分析文本數(shù)據(jù)的基礎單元。自動提取關鍵詞是自然語言處理任務的重點研究對象,對于文本分析有著重要的研究意義。本文以汽車新聞文本作為研究數(shù)據(jù),通過TextRank圖模型和Word2Vec相結合的方法,提取汽車新聞文本的關鍵詞。利用中文分詞工具——結巴分詞對中文語料分詞。通過融合單個文檔的內(nèi)部結構信息和整個文檔集合的詞向量關系提取文本中的詞匯;通過Word2Vec模型將文檔集合中所有詞匯表示成稠密向量的形式,以向量的相似度來表示詞匯之間的相似度。在Word2Vec模型的基礎上,對TextRank算法做進一步改進。把候選關鍵詞作為詞匯節(jié)點,...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
向量空間模型示意圖
如圖2.?2所示,神經(jīng)網(wǎng)絡語言模型主要包括三層:??首先是Embedding層。以一個句子“我喜歡吃長沙臭豆腐”為例,句子拆開是??“我”、“喜歡”、“吃”、“長沙”四個詞,來預測下一個詞是什么。每個詞給一個編??,“我”、“喜歡”、“吃”、“長沙編號分別為1,2,?3,4。矩陣C為的投影矩陣,??中V是詞典的維度大小,D是Embedding向量的維度。那么,“我”、“喜歡”的??ne-hot向量表不為:??rn?f〇^??0?1??.?9?.??這里,one-hot向量作為模型的輸入,通過矩陣C,映射為分布式的詞向量。??第二部分是hidden?layer?(隱層)。隱層將上一層的輸出作為輸入,進行全連??,然后通過激活函數(shù)tanh來處理這些詞向量。??第三部分是SoftMax層。隱層出來之后,接一個SoftMax函數(shù),對詞典中的詞??輸入context下的條件概率做出預估。預測一下,在這V維詞典中,每個單詞出??
??型同時解決了兩個問題:通過Embedding層得到向量空間模達;通過一個前向反饋神經(jīng)網(wǎng)絡實現(xiàn)統(tǒng)計語言模型的計算。直接從語言模型出發(fā),將模型最優(yōu)化的過程轉(zhuǎn)換。通過詞向量的表示和平滑處理,我們就可以對文本序列概詞袋模型帶來的數(shù)據(jù)稀疏、語義鴻溝和維度災難的問題。??等人的工作只考慮對語言模型的建模,詞向量只是學習語言此他們并沒有指出哪一套向量作為詞向量效果更好。通過神后,更多人投入到詞向量模型的研宄中去。2013年,谷歌米型進行改進,設計了?CB0W模型和Skip-gram模型。而ous?Bagof-Words)和?Skip-gram?語言模型的工具正是?wordWord2Vec?基礎知識??圖?2.4?分別是?CBOW(Continuous?Bag-of-Words?Model)和?Skus?Skip-gram?Model)。??
本文編號:3070655
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
向量空間模型示意圖
如圖2.?2所示,神經(jīng)網(wǎng)絡語言模型主要包括三層:??首先是Embedding層。以一個句子“我喜歡吃長沙臭豆腐”為例,句子拆開是??“我”、“喜歡”、“吃”、“長沙”四個詞,來預測下一個詞是什么。每個詞給一個編??,“我”、“喜歡”、“吃”、“長沙編號分別為1,2,?3,4。矩陣C為的投影矩陣,??中V是詞典的維度大小,D是Embedding向量的維度。那么,“我”、“喜歡”的??ne-hot向量表不為:??rn?f〇^??0?1??.?9?.??這里,one-hot向量作為模型的輸入,通過矩陣C,映射為分布式的詞向量。??第二部分是hidden?layer?(隱層)。隱層將上一層的輸出作為輸入,進行全連??,然后通過激活函數(shù)tanh來處理這些詞向量。??第三部分是SoftMax層。隱層出來之后,接一個SoftMax函數(shù),對詞典中的詞??輸入context下的條件概率做出預估。預測一下,在這V維詞典中,每個單詞出??
??型同時解決了兩個問題:通過Embedding層得到向量空間模達;通過一個前向反饋神經(jīng)網(wǎng)絡實現(xiàn)統(tǒng)計語言模型的計算。直接從語言模型出發(fā),將模型最優(yōu)化的過程轉(zhuǎn)換。通過詞向量的表示和平滑處理,我們就可以對文本序列概詞袋模型帶來的數(shù)據(jù)稀疏、語義鴻溝和維度災難的問題。??等人的工作只考慮對語言模型的建模,詞向量只是學習語言此他們并沒有指出哪一套向量作為詞向量效果更好。通過神后,更多人投入到詞向量模型的研宄中去。2013年,谷歌米型進行改進,設計了?CB0W模型和Skip-gram模型。而ous?Bagof-Words)和?Skip-gram?語言模型的工具正是?wordWord2Vec?基礎知識??圖?2.4?分別是?CBOW(Continuous?Bag-of-Words?Model)和?Skus?Skip-gram?Model)。??
本文編號:3070655
本文鏈接:http://sikaile.net/tushudanganlunwen/3070655.html