基于信息提取技術(shù)對(duì)文本命名實(shí)體識(shí)別和主題提取的工程構(gòu)建
發(fā)布時(shí)間:2022-01-27 19:18
本論文根據(jù)目前新聞檢索領(lǐng)域遇到的問(wèn)題,針對(duì)性的提出解決方案。在新聞搜索和推薦過(guò)程中,作者發(fā)現(xiàn),人們往往關(guān)注于新聞中出現(xiàn)的人物、新聞發(fā)生的地點(diǎn)、以及新聞中出現(xiàn)的組織。如果新聞系統(tǒng)獲取到了新聞中的人物、地點(diǎn)和組織,那通過(guò)這樣的方法就可以來(lái)向最近關(guān)注過(guò)本新聞中出現(xiàn)的人物、地點(diǎn)和組織的讀者推薦當(dāng)前新聞。在新聞搜索過(guò)程中,如果用戶直接搜索新聞中出現(xiàn)的關(guān)鍵詞,如人、地、組織等,系統(tǒng)就可以及時(shí)作出響應(yīng),降低了檢索花費(fèi)的時(shí)間。本文主要內(nèi)容分為兩個(gè)部分。第一部分作為新聞本文語(yǔ)料信息抽取的模型的研究,制定了新聞本文語(yǔ)料需要抽取的三個(gè)主要部分為新聞的實(shí)體、主題和摘要的方案。首先,本文分析了傳統(tǒng)的命名實(shí)體識(shí)別模型存在的問(wèn)題,提出了基于BI-LSTM和CRF組合的算法結(jié)構(gòu)的解決方案,并對(duì)命名實(shí)體識(shí)別模型的個(gè)性化識(shí)別進(jìn)行定制化的訓(xùn)練,經(jīng)驗(yàn)證該方法可以有效的提取出個(gè)性化需要的實(shí)體。其次,本文分析了以LDA為例的主題抽取方法的原理以及存在的問(wèn)題,提出了循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練詞向量的方法解決不同語(yǔ)境下詞語(yǔ)存在相似含義的解決方案,并且根據(jù)解決方案進(jìn)行了相關(guān)的實(shí)驗(yàn)驗(yàn)證。最后,本文提出了一種訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)詞向量和排序結(jié)合的方...
【文章來(lái)源】:北京交通大學(xué)北京市211工程院校教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主題提取模型矩陣計(jì)算示意圖
主題模型計(jì)算的向童圖
LDA抽取三層示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和TF-IDF算法實(shí)現(xiàn)酒店評(píng)論的個(gè)性化推送[J]. 張雷. 電腦與信息技術(shù). 2017(06)
[2]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬. 計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[3]基于頻繁項(xiàng)集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平. 計(jì)算機(jī)研究與發(fā)展. 2015(09)
[4]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美. 情報(bào)科學(xué). 2015(01)
[5]基于時(shí)空主題模型的微博主題提取[J]. 段煉,咼維,朱欣焰,胡寶清. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(02)
[6]基于文本聚類與LDA相融合的微博主題檢索模型研究[J]. 唐曉波,房小可. 情報(bào)理論與實(shí)踐. 2013(08)
[7]一種基于LDA的在線主題演化挖掘模型[J]. 崔凱,周斌,賈焰,梁政. 計(jì)算機(jī)科學(xué). 2010(11)
[8]基于降維的短信文本語(yǔ)義分類及主題提取[J]. 劉金嶺. 計(jì)算機(jī)工程與應(yīng)用. 2010(23)
[9]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[10]一種基于字同現(xiàn)頻率的漢語(yǔ)文本主題抽取方法[J]. 馬穎華,王永成,蘇貴洋,張宇萌. 計(jì)算機(jī)研究與發(fā)展. 2003(06)
碩士論文
[1]基于LSTM的語(yǔ)義關(guān)系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
[2]基于中文微博的熱點(diǎn)事件情感傾向分析[D]. 王瀟天.北京郵電大學(xué) 2015
[3]中文命名實(shí)體識(shí)別粒度和特征選擇研究[D]. 劉章勛.哈爾濱工業(yè)大學(xué) 2010
本文編號(hào):3612945
【文章來(lái)源】:北京交通大學(xué)北京市211工程院校教育部直屬院校
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主題提取模型矩陣計(jì)算示意圖
主題模型計(jì)算的向童圖
LDA抽取三層示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和TF-IDF算法實(shí)現(xiàn)酒店評(píng)論的個(gè)性化推送[J]. 張雷. 電腦與信息技術(shù). 2017(06)
[2]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬. 計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[3]基于頻繁項(xiàng)集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平. 計(jì)算機(jī)研究與發(fā)展. 2015(09)
[4]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美. 情報(bào)科學(xué). 2015(01)
[5]基于時(shí)空主題模型的微博主題提取[J]. 段煉,咼維,朱欣焰,胡寶清. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(02)
[6]基于文本聚類與LDA相融合的微博主題檢索模型研究[J]. 唐曉波,房小可. 情報(bào)理論與實(shí)踐. 2013(08)
[7]一種基于LDA的在線主題演化挖掘模型[J]. 崔凱,周斌,賈焰,梁政. 計(jì)算機(jī)科學(xué). 2010(11)
[8]基于降維的短信文本語(yǔ)義分類及主題提取[J]. 劉金嶺. 計(jì)算機(jī)工程與應(yīng)用. 2010(23)
[9]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[10]一種基于字同現(xiàn)頻率的漢語(yǔ)文本主題抽取方法[J]. 馬穎華,王永成,蘇貴洋,張宇萌. 計(jì)算機(jī)研究與發(fā)展. 2003(06)
碩士論文
[1]基于LSTM的語(yǔ)義關(guān)系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
[2]基于中文微博的熱點(diǎn)事件情感傾向分析[D]. 王瀟天.北京郵電大學(xué) 2015
[3]中文命名實(shí)體識(shí)別粒度和特征選擇研究[D]. 劉章勛.哈爾濱工業(yè)大學(xué) 2010
本文編號(hào):3612945
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3612945.html
最近更新
教材專著