天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于信息提取技術(shù)對文本命名實(shí)體識別和主題提取的工程構(gòu)建

發(fā)布時(shí)間:2022-01-27 19:18
  本論文根據(jù)目前新聞檢索領(lǐng)域遇到的問題,針對性的提出解決方案。在新聞搜索和推薦過程中,作者發(fā)現(xiàn),人們往往關(guān)注于新聞中出現(xiàn)的人物、新聞發(fā)生的地點(diǎn)、以及新聞中出現(xiàn)的組織。如果新聞系統(tǒng)獲取到了新聞中的人物、地點(diǎn)和組織,那通過這樣的方法就可以來向最近關(guān)注過本新聞中出現(xiàn)的人物、地點(diǎn)和組織的讀者推薦當(dāng)前新聞。在新聞搜索過程中,如果用戶直接搜索新聞中出現(xiàn)的關(guān)鍵詞,如人、地、組織等,系統(tǒng)就可以及時(shí)作出響應(yīng),降低了檢索花費(fèi)的時(shí)間。本文主要內(nèi)容分為兩個(gè)部分。第一部分作為新聞本文語料信息抽取的模型的研究,制定了新聞本文語料需要抽取的三個(gè)主要部分為新聞的實(shí)體、主題和摘要的方案。首先,本文分析了傳統(tǒng)的命名實(shí)體識別模型存在的問題,提出了基于BI-LSTM和CRF組合的算法結(jié)構(gòu)的解決方案,并對命名實(shí)體識別模型的個(gè)性化識別進(jìn)行定制化的訓(xùn)練,經(jīng)驗(yàn)證該方法可以有效的提取出個(gè)性化需要的實(shí)體。其次,本文分析了以LDA為例的主題抽取方法的原理以及存在的問題,提出了循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練詞向量的方法解決不同語境下詞語存在相似含義的解決方案,并且根據(jù)解決方案進(jìn)行了相關(guān)的實(shí)驗(yàn)驗(yàn)證。最后,本文提出了一種訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)詞向量和排序結(jié)合的方... 

【文章來源】:北京交通大學(xué)北京市211工程院校教育部直屬院校

【文章頁數(shù)】:87 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于信息提取技術(shù)對文本命名實(shí)體識別和主題提取的工程構(gòu)建


主題提取模型矩陣計(jì)算示意圖

基于信息提取技術(shù)對文本命名實(shí)體識別和主題提取的工程構(gòu)建


主題模型計(jì)算的向童圖

基于信息提取技術(shù)對文本命名實(shí)體識別和主題提取的工程構(gòu)建


LDA抽取三層示意圖

【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和TF-IDF算法實(shí)現(xiàn)酒店評論的個(gè)性化推送[J]. 張雷.  電腦與信息技術(shù). 2017(06)
[2]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬.  計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[3]基于頻繁項(xiàng)集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平.  計(jì)算機(jī)研究與發(fā)展. 2015(09)
[4]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美.  情報(bào)科學(xué). 2015(01)
[5]基于時(shí)空主題模型的微博主題提取[J]. 段煉,咼維,朱欣焰,胡寶清.  武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(02)
[6]基于文本聚類與LDA相融合的微博主題檢索模型研究[J]. 唐曉波,房小可.  情報(bào)理論與實(shí)踐. 2013(08)
[7]一種基于LDA的在線主題演化挖掘模型[J]. 崔凱,周斌,賈焰,梁政.  計(jì)算機(jī)科學(xué). 2010(11)
[8]基于降維的短信文本語義分類及主題提取[J]. 劉金嶺.  計(jì)算機(jī)工程與應(yīng)用. 2010(23)
[9]命名實(shí)體識別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨.  現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[10]一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J]. 馬穎華,王永成,蘇貴洋,張宇萌.  計(jì)算機(jī)研究與發(fā)展. 2003(06)

碩士論文
[1]基于LSTM的語義關(guān)系分類研究[D]. 胡新辰.哈爾濱工業(yè)大學(xué) 2015
[2]基于中文微博的熱點(diǎn)事件情感傾向分析[D]. 王瀟天.北京郵電大學(xué) 2015
[3]中文命名實(shí)體識別粒度和特征選擇研究[D]. 劉章勛.哈爾濱工業(yè)大學(xué) 2010



本文編號:3612945

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3612945.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6f7a5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com