基于神經(jīng)網(wǎng)絡的印尼語相似新聞推薦的研究
發(fā)布時間:2021-05-06 18:44
相似文本推薦在信息的檢索和自然語言處理等相關領域都有著重要的應用,在個性化服務時代,其進化升級版的個性化推薦更是為個人提供著更高效和直接的信息資源。在某些領域對用戶隱私或行為信息要求較嚴,因此需要只在純文本的信息中進行相似文本推薦。最為傳統(tǒng)的方法僅僅依靠基于統(tǒng)計信息的關鍵詞,沒有考慮文本中詞的語義信息和文本本身的語義信息。隨著近年來機器學習和深度學習興起,詞向量在表示詞匯語義信息上取得了較好的結果。利用詞向量表示文本,通過距離度量函數(shù)來尋找相似文本。這種詞匯上語義信息的疊加表示文本信息還是不能很好的總結長文本的信息。本文主要考慮統(tǒng)計與神經(jīng)網(wǎng)絡的結合,提出了關鍵詞與其帶權關鍵詞量化文本相結合的相似文本度量方式,實驗結果表明了這種方法的有效性和可行性。本文主要研究基于神經(jīng)網(wǎng)絡的印尼相似新聞推薦,在純文本上提出了新的相似度量方式。神經(jīng)網(wǎng)絡主要是利用其詞向量模型在詞匯語義上的有效表示,印尼語為應用的語種。全文的工作內容如下:(1)在使用關鍵詞表示文本進行推薦和甄別中,詳細介紹了基于統(tǒng)計信息的關鍵詞提取算法TF-IDF、基于主題模型的關鍵詞提取算法LDA以及基于詞圖模型的關鍵詞提取算法TextR...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文的主要研究內容和組織結構
第二章 文本關鍵詞提取
2.1 關鍵詞提取概述
2.2 無監(jiān)督模型
2.3 基于文本中的統(tǒng)計特征的關鍵詞提取
2.3.1 常用的幾種單詞“重要性”量化指標
2.3.2 關鍵詞提取
2.4 基于文本構建的詞圖模型的關鍵詞提取
2.4.1 PageRank
2.4.2 TextRank
2.5 基于文本隱含主題模型的關鍵詞提取
2.5.1 概率潛在語義分析(PLSA)
2.5.2 隱狄利克雷分布(LDA)
2.6 本章小結
第三章 詞的特征表示
3.1 詞量化表示
3.2 語言模型概述
3.3 基于神經(jīng)網(wǎng)絡的詞向量模型
3.3.1 NNLM
3.3.2 C&W模型
3.3.3 CBOW和 Skip-gram模型
3.4 本章小結
第四章 無標簽文本推薦算法研究
4.1 文本關鍵詞作為文本特征
4.2 基于神經(jīng)網(wǎng)絡的文本向量作為文本特征
4.2.1 基于詞向量
4.2.2 Doc2vec
4.2.3 以文本向量作為文本特征推薦
4.3 關鍵詞與詞向量共同作為文本特征
4.4 實驗結果與分析
4.5 本章小結
第五章 實驗與結果分析
5.1 關鍵詞提取實驗
5.1.1 實驗環(huán)境和數(shù)據(jù)集
5.1.2 實驗與結果分析
5.2 印尼語的更多處理
5.2.1 印尼語的特點
5.2.2 印尼語關鍵詞處理
5.3 文本向量實驗
5.3.1 數(shù)據(jù)集
5.3.2 實驗與結果分析
5.4 印尼新聞文本推薦實驗
5.4.1 數(shù)據(jù)集
5.4.2 實驗與結果分析
5.5 中文推薦實驗
5.6 本章小結
第六章 全文總結與展望
6.1 本文總結
6.2 未來展望
致謝
參考文獻
攻碩期間取得的研究成果
【參考文獻】:
期刊論文
[1]基于改進的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機科學. 2016(06)
[2]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學學報(自然科學版). 2016(01)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學. 2013(12)
[4]基于詞跨度的中文文本關鍵詞自動提取方法[J]. 謝晉. 現(xiàn)代物業(yè)(中旬刊). 2012(04)
[5]基于雙字哈希的PAT樹詞典機制的研究[J]. 趙麗,郭宏文. 黑龍江生態(tài)工程職業(yè)學院學報. 2011(01)
[6]關鍵詞提取[J]. 朱濤. 考試(高考·語文版). 2010(Z4)
碩士論文
[1]基于主題模型的關鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學 2016
[2]Web文本挖掘技術研究及應用[D]. 李曉笛.北京交通大學 2015
[3]無監(jiān)督中文實體關系抽取研究[D]. 施琦.中國地質大學(北京) 2015
[4]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學 2015
[5]大數(shù)據(jù)環(huán)境下文本聚類與摘要提取[D]. 孟繁宇.北京郵電大學 2015
本文編號:3172432
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文的主要研究內容和組織結構
第二章 文本關鍵詞提取
2.1 關鍵詞提取概述
2.2 無監(jiān)督模型
2.3 基于文本中的統(tǒng)計特征的關鍵詞提取
2.3.1 常用的幾種單詞“重要性”量化指標
2.3.2 關鍵詞提取
2.4 基于文本構建的詞圖模型的關鍵詞提取
2.4.1 PageRank
2.4.2 TextRank
2.5 基于文本隱含主題模型的關鍵詞提取
2.5.1 概率潛在語義分析(PLSA)
2.5.2 隱狄利克雷分布(LDA)
2.6 本章小結
第三章 詞的特征表示
3.1 詞量化表示
3.2 語言模型概述
3.3 基于神經(jīng)網(wǎng)絡的詞向量模型
3.3.1 NNLM
3.3.2 C&W模型
3.3.3 CBOW和 Skip-gram模型
3.4 本章小結
第四章 無標簽文本推薦算法研究
4.1 文本關鍵詞作為文本特征
4.2 基于神經(jīng)網(wǎng)絡的文本向量作為文本特征
4.2.1 基于詞向量
4.2.2 Doc2vec
4.2.3 以文本向量作為文本特征推薦
4.3 關鍵詞與詞向量共同作為文本特征
4.4 實驗結果與分析
4.5 本章小結
第五章 實驗與結果分析
5.1 關鍵詞提取實驗
5.1.1 實驗環(huán)境和數(shù)據(jù)集
5.1.2 實驗與結果分析
5.2 印尼語的更多處理
5.2.1 印尼語的特點
5.2.2 印尼語關鍵詞處理
5.3 文本向量實驗
5.3.1 數(shù)據(jù)集
5.3.2 實驗與結果分析
5.4 印尼新聞文本推薦實驗
5.4.1 數(shù)據(jù)集
5.4.2 實驗與結果分析
5.5 中文推薦實驗
5.6 本章小結
第六章 全文總結與展望
6.1 本文總結
6.2 未來展望
致謝
參考文獻
攻碩期間取得的研究成果
【參考文獻】:
期刊論文
[1]基于改進的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機科學. 2016(06)
[2]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學學報(自然科學版). 2016(01)
[3]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學. 2013(12)
[4]基于詞跨度的中文文本關鍵詞自動提取方法[J]. 謝晉. 現(xiàn)代物業(yè)(中旬刊). 2012(04)
[5]基于雙字哈希的PAT樹詞典機制的研究[J]. 趙麗,郭宏文. 黑龍江生態(tài)工程職業(yè)學院學報. 2011(01)
[6]關鍵詞提取[J]. 朱濤. 考試(高考·語文版). 2010(Z4)
碩士論文
[1]基于主題模型的關鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學 2016
[2]Web文本挖掘技術研究及應用[D]. 李曉笛.北京交通大學 2015
[3]無監(jiān)督中文實體關系抽取研究[D]. 施琦.中國地質大學(北京) 2015
[4]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學 2015
[5]大數(shù)據(jù)環(huán)境下文本聚類與摘要提取[D]. 孟繁宇.北京郵電大學 2015
本文編號:3172432
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3172432.html
最近更新
教材專著