基于LDA和潛在特征向量的文本表示模型研究
發(fā)布時間:2021-08-19 16:55
文本分類作為處理非結(jié)構(gòu)化信息的一種有效手段,在自然語言處理領(lǐng)域得到了廣泛研究和應(yīng)用。然而由于文本數(shù)據(jù)具有非結(jié)構(gòu)化、高維性、高稀疏性等特征,因此能否有效地表示文本信息是影響后續(xù)文本處理效果的關(guān)鍵因素,文本分類的效果也高度依賴于文本表示模型的效果。常用的文本表示方法是基于文本主題的文本表示,因此主題模型的準(zhǔn)確度直接影響文本表示的精度。本文主要從文本主題模型和文本表示模型兩個方面展開研究。LDA模型是以全局的觀念預(yù)測文檔中的每個詞,但它不包含文本特征詞的上下文關(guān)系,缺失了文章的局部語義信息。目前基于LDA和潛在特征的模型改進(jìn)方法分為兩類,一類針對短文本,通過在大語料集上擴(kuò)展詞向量庫改善模型效果;另一類通過詞向量加和直接計算主題向量,此類方法詞向量與主題向量分屬不同語義空間,表示并不準(zhǔn)確?紤]到LDA與現(xiàn)有改進(jìn)模型的優(yōu)缺點,本文將包含了文本語義特征的潛在特征向量引入模型,提出了基于LDA和潛在特征向量的文本主題表示模型LFV-LDA,在同一語義向量空間訓(xùn)練詞向量、主題向量以及文檔-主題-詞的層次分布,改進(jìn)后的模型可以直接輸出文本主題向量。在新聞?wù)Z料上對LFV-LDA模型進(jìn)行訓(xùn)練和測試的實驗結(jié)果...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1數(shù)據(jù)采集和預(yù)處理示意圖??本文數(shù)據(jù)來源于2018年2、3月份網(wǎng)易、今日頭條、搜狐、新浪、騰訊等門??
數(shù)據(jù)爬取、數(shù)據(jù)清洗??乂?一夕??分類的格??式化數(shù)據(jù)??r;?^?|?數(shù)據(jù)預(yù)處理? ̄ ̄??中文分詞、去停用詞??圖2-1數(shù)據(jù)采集和預(yù)處理示意圖??本文數(shù)據(jù)來源于2018年2、3月份網(wǎng)易、今日頭條、搜狐、新浪、騰訊等門??戶網(wǎng)站的新聞數(shù)據(jù),主要包括國內(nèi)、國際、軍事、社會、娛樂、體育、科技、財??經(jīng)八個類別以及新聞標(biāo)題、發(fā)布日期、新聞類別、正文等四部分內(nèi)容。這些語料??需要網(wǎng)絡(luò)爬蟲來爬取,本文采用混合模式Pi][22]的分布式爬蟲爬取數(shù)據(jù)。??對爬取的數(shù)據(jù)進(jìn)行預(yù)處理[23]是文本表示建模的第一步,其處理效果的好壞??直接影響后續(xù)所有的操作效果,文本預(yù)處理步驟如圖2-2所示。??—?統(tǒng)一格式? ̄????
3??圖2-3主題模型的文檔生成過程示意圖??圖2-3表示了基于主題模型的文檔生成過程。主題1?(T〇Pic_l)和主題2??(Topic—2)都包含"互聯(lián)網(wǎng),,和“區(qū)塊鏈"兩個詞,但兩個主題的詞分布不同。??9??
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲的專利技術(shù)綜述[J]. 馬明陽,郭明亮,魏留強(qiáng). 科技視界. 2018(22)
[2]一種大規(guī)模優(yōu)化問題的鄰近隨機(jī)L-BFGS方法[J]. 周倩,羅賢兵. 貴州大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[3]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報技術(shù). 2016(12)
[4]改進(jìn)粒子群算法優(yōu)化的支持向量機(jī)及其應(yīng)用[J]. 王振武,孫佳駿,尹成峰. 哈爾濱工程大學(xué)學(xué)報. 2016(12)
[5]基于詞向量的中文詞匯蘊(yùn)涵關(guān)系識別[J]. 張志昌,周慧霞,姚東任,魯小勇. 計算機(jī)工程. 2016(02)
[6]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機(jī)學(xué)報. 2011(08)
[7]深層網(wǎng)絡(luò)爬蟲研究綜述[J]. 曾偉輝,李淼,曾偉輝. 計算機(jī)系統(tǒng)應(yīng)用. 2008(05)
[8]面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 曹勇剛,曹羽中,金茂忠,劉超. 軟件學(xué)報. 2006(03)
碩士論文
[1]網(wǎng)絡(luò)新聞熱點話題檢測分析與趨勢研究[D]. 石正新.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]融合上下文信息的漢語分詞方法研究[D]. 李質(zhì)軒.北京交通大學(xué) 2018
[3]互聯(lián)網(wǎng)輿情主題抽取方法研究[D]. 朱煜松.電子科技大學(xué) 2018
[4]基于doc2vec和SVM的輿情情感分析系統(tǒng)的研究與設(shè)計[D]. 甘如飴.北京郵電大學(xué) 2017
[5]基于支持向量機(jī)的中文文本分類研究[D]. 楊孟英.華北電力大學(xué) 2017
[6]基于LDA模型的中文微博主題挖掘[D]. 易曉曄.北京郵電大學(xué) 2016
[7]基于LDA主題模型的TFIDF算法改進(jìn)及應(yīng)用[D]. 高揚.廣西大學(xué) 2015
[8]一種詞性標(biāo)注LDA模型的文本分類方法研究[D]. 張超.華中師范大學(xué) 2015
[9]短文本分類技術(shù)研究[D]. 張虹.遼寧師范大學(xué) 2015
[10]搜索引擎查詢糾錯的關(guān)鍵技術(shù)研究[D]. 竇光輝.北方工業(yè)大學(xué) 2014
本文編號:3351786
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1數(shù)據(jù)采集和預(yù)處理示意圖??本文數(shù)據(jù)來源于2018年2、3月份網(wǎng)易、今日頭條、搜狐、新浪、騰訊等門??
數(shù)據(jù)爬取、數(shù)據(jù)清洗??乂?一夕??分類的格??式化數(shù)據(jù)??r;?^?|?數(shù)據(jù)預(yù)處理? ̄ ̄??中文分詞、去停用詞??圖2-1數(shù)據(jù)采集和預(yù)處理示意圖??本文數(shù)據(jù)來源于2018年2、3月份網(wǎng)易、今日頭條、搜狐、新浪、騰訊等門??戶網(wǎng)站的新聞數(shù)據(jù),主要包括國內(nèi)、國際、軍事、社會、娛樂、體育、科技、財??經(jīng)八個類別以及新聞標(biāo)題、發(fā)布日期、新聞類別、正文等四部分內(nèi)容。這些語料??需要網(wǎng)絡(luò)爬蟲來爬取,本文采用混合模式Pi][22]的分布式爬蟲爬取數(shù)據(jù)。??對爬取的數(shù)據(jù)進(jìn)行預(yù)處理[23]是文本表示建模的第一步,其處理效果的好壞??直接影響后續(xù)所有的操作效果,文本預(yù)處理步驟如圖2-2所示。??—?統(tǒng)一格式? ̄????
3??圖2-3主題模型的文檔生成過程示意圖??圖2-3表示了基于主題模型的文檔生成過程。主題1?(T〇Pic_l)和主題2??(Topic—2)都包含"互聯(lián)網(wǎng),,和“區(qū)塊鏈"兩個詞,但兩個主題的詞分布不同。??9??
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲的專利技術(shù)綜述[J]. 馬明陽,郭明亮,魏留強(qiáng). 科技視界. 2018(22)
[2]一種大規(guī)模優(yōu)化問題的鄰近隨機(jī)L-BFGS方法[J]. 周倩,羅賢兵. 貴州大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[3]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報技術(shù). 2016(12)
[4]改進(jìn)粒子群算法優(yōu)化的支持向量機(jī)及其應(yīng)用[J]. 王振武,孫佳駿,尹成峰. 哈爾濱工程大學(xué)學(xué)報. 2016(12)
[5]基于詞向量的中文詞匯蘊(yùn)涵關(guān)系識別[J]. 張志昌,周慧霞,姚東任,魯小勇. 計算機(jī)工程. 2016(02)
[6]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機(jī)學(xué)報. 2011(08)
[7]深層網(wǎng)絡(luò)爬蟲研究綜述[J]. 曾偉輝,李淼,曾偉輝. 計算機(jī)系統(tǒng)應(yīng)用. 2008(05)
[8]面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 曹勇剛,曹羽中,金茂忠,劉超. 軟件學(xué)報. 2006(03)
碩士論文
[1]網(wǎng)絡(luò)新聞熱點話題檢測分析與趨勢研究[D]. 石正新.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]融合上下文信息的漢語分詞方法研究[D]. 李質(zhì)軒.北京交通大學(xué) 2018
[3]互聯(lián)網(wǎng)輿情主題抽取方法研究[D]. 朱煜松.電子科技大學(xué) 2018
[4]基于doc2vec和SVM的輿情情感分析系統(tǒng)的研究與設(shè)計[D]. 甘如飴.北京郵電大學(xué) 2017
[5]基于支持向量機(jī)的中文文本分類研究[D]. 楊孟英.華北電力大學(xué) 2017
[6]基于LDA模型的中文微博主題挖掘[D]. 易曉曄.北京郵電大學(xué) 2016
[7]基于LDA主題模型的TFIDF算法改進(jìn)及應(yīng)用[D]. 高揚.廣西大學(xué) 2015
[8]一種詞性標(biāo)注LDA模型的文本分類方法研究[D]. 張超.華中師范大學(xué) 2015
[9]短文本分類技術(shù)研究[D]. 張虹.遼寧師范大學(xué) 2015
[10]搜索引擎查詢糾錯的關(guān)鍵技術(shù)研究[D]. 竇光輝.北方工業(yè)大學(xué) 2014
本文編號:3351786
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3351786.html
最近更新
教材專著