自然語言處理—中文詞和短文本向量化的研究
發(fā)布時間:2021-06-07 05:27
近年來計算科學飛速發(fā)展,尤其是計算機的計算能力大幅提升,機器學習和深度學習的應用越來越廣泛,因此我們在自然語言處理領域的研究越來越多的運用了機器學習和深度學習的方法作為工具,在這樣的情況下,自然語言處理也得到了大幅度的發(fā)展。在自然語言處理中,如何將詞轉(zhuǎn)換為計算機能夠識別的語言是一項基礎性的研究,因此詞向量化和文本向量化方法的研究就顯得尤為重要。傳統(tǒng)針對文本數(shù)據(jù)的分析,往往基于詞頻、詞頻逆文本統(tǒng)計量作為文本的表示特征。這類方法往往只反映了文本的部分信息,忽略了文本的內(nèi)在語義特征。尤其是對于短文本數(shù)據(jù)而言,關鍵詞出現(xiàn)的頻率通常較低,這給基于詞頻原理的統(tǒng)計模型帶來了巨大的挑戰(zhàn)。因而,本文提出了中文詞語銜接的概率語言模型,其基本思想在于根據(jù)文本中詞語出現(xiàn)的先后順序進行建模分析,該模型在短文本數(shù)據(jù)挖掘中能夠很好地針對文本語義進行量化分析。主要解決兩類問題:一、如何合理地將中文詞轉(zhuǎn)化為數(shù)字向量,并且保證中文近義詞在數(shù)字空間特征上的相似性;二、如何建立恰當?shù)南蛄靠臻g,將中文文本的語義和結構特征等信息保留在向量空間中。最后結合金庸小說人物驗證中文詞向量化的合理性;另一方面應用某城市房屋管理部門留言板的...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【部分圖文】:
圖1.1:過去6年中ACL,?EMNLP,?EACL,?NAACL深度學習論文的百分比(長篇??
換句話說,在文本中出現(xiàn)非常頻繁的詞在語義上很可能是沒有意義的,而稀??有詞占字典的主要部分,但出現(xiàn)的頻率卻不高。這個定律說明了單詞在文本中的??分布情況。而這個定律也說明了為什么需要去停用詞,圖2.1是去停用詞的工作原??理。??吆去廠=界,—娜??/?\?|??W?,?\??額'義詞?\?^^5疏詞??Z?^??詞:鋪陷,周頻越離越靠前??圖2.1:去停用詞??11??
et?=?g{VTmt)?+?£.?(3.5)??這里,W代表圖3.2中的連接權,[/代表輸出層和隱藏層之間的連接權矩陣,??V"代表隱藏層和輸出層之間的連接權矩陣,;rt代表i時刻的輸入,mt代表i時刻隱藏??層的輸出,et代表t時刻的后詞概率,/,5分別代表隱藏層到輸出層的激活函數(shù),??通常可取為sigmod函數(shù)、雙曲正切函數(shù)等等,e代表隨機誤差。從而問題轉(zhuǎn)換為??n??(W,U,V)?=?arg?min^Wet?-?g(yTmt)\\l,?(3.6)??t=l??=?f(WTmt-i?+?UTxt),?t?=?1,???????,?n.?(3.7)??這里我們通過循環(huán)神經(jīng)網(wǎng)絡(RNN)來求解該模型中的參數(shù)由??于W為隱藏層的記憶單元,其中包含了文本的主旨信息,因此可以被當做文本向??20??
【參考文獻】:
期刊論文
[1]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
本文編號:3215962
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【部分圖文】:
圖1.1:過去6年中ACL,?EMNLP,?EACL,?NAACL深度學習論文的百分比(長篇??
換句話說,在文本中出現(xiàn)非常頻繁的詞在語義上很可能是沒有意義的,而稀??有詞占字典的主要部分,但出現(xiàn)的頻率卻不高。這個定律說明了單詞在文本中的??分布情況。而這個定律也說明了為什么需要去停用詞,圖2.1是去停用詞的工作原??理。??吆去廠=界,—娜??/?\?|??W?,?\??額'義詞?\?^^5疏詞??Z?^??詞:鋪陷,周頻越離越靠前??圖2.1:去停用詞??11??
et?=?g{VTmt)?+?£.?(3.5)??這里,W代表圖3.2中的連接權,[/代表輸出層和隱藏層之間的連接權矩陣,??V"代表隱藏層和輸出層之間的連接權矩陣,;rt代表i時刻的輸入,mt代表i時刻隱藏??層的輸出,et代表t時刻的后詞概率,/,5分別代表隱藏層到輸出層的激活函數(shù),??通常可取為sigmod函數(shù)、雙曲正切函數(shù)等等,e代表隨機誤差。從而問題轉(zhuǎn)換為??n??(W,U,V)?=?arg?min^Wet?-?g(yTmt)\\l,?(3.6)??t=l??=?f(WTmt-i?+?UTxt),?t?=?1,???????,?n.?(3.7)??這里我們通過循環(huán)神經(jīng)網(wǎng)絡(RNN)來求解該模型中的參數(shù)由??于W為隱藏層的記憶單元,其中包含了文本的主旨信息,因此可以被當做文本向??20??
【參考文獻】:
期刊論文
[1]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
本文編號:3215962
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3215962.html
最近更新
教材專著