天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于改進(jìn)TF-IDF算法的信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-11-25 07:06
  互聯(lián)網(wǎng)技術(shù)的高速發(fā)展帶來信息的爆發(fā)式式增長,同時(shí)這些網(wǎng)絡(luò)信息中夾雜大量冗余、干擾信息,如何快速有效地對大量網(wǎng)絡(luò)噪音信息進(jìn)行過濾并對目標(biāo)信息進(jìn)行有效抽取成為研究的焦點(diǎn)之一。自然語言處理技術(shù)能夠通過對篇章、段落、句子、詞語進(jìn)行基于詞向量、句向量的處理過程,提取文本的主題、語義等信息,識別相似語義信息,消除反義等噪音干擾,達(dá)到對特定文檔實(shí)現(xiàn)信息抽取的目的。基于詞頻與逆文檔頻率的關(guān)鍵字提取算法(term frequency-inverse document frequency,TF-IDF)作為經(jīng)典的文本關(guān)鍵字提取算法之一已經(jīng)得到了非常廣泛的應(yīng)用,其獲取文檔關(guān)鍵字的方法是對詞頻(Term Frequency,TF)進(jìn)行統(tǒng)計(jì),某個(gè)詞語出現(xiàn)次數(shù)越多,則文章可能與這個(gè)詞語有正向關(guān)聯(lián)性,同時(shí)通過逆文檔頻率(Inverse Document Frequency,IDF)減少常見詞的權(quán)重。然而傳統(tǒng)TF-IDF算法在實(shí)際應(yīng)用中還存在很多待改進(jìn)問題,例如沒有考慮文檔中詞語不完整分類、忽略特征詞之間的分布信息等缺點(diǎn)。盡管有研究學(xué)者對傳統(tǒng)TF-IDF算法進(jìn)行了改進(jìn),但仍簡單將詞頻和權(quán)重掛鉤,未考慮詞語在不同文檔的... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于改進(jìn)TF-IDF算法的信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


圖3-1?TFIDF-BOIT算法流程圖??改進(jìn)算法流程如下:??步驟1:載入文本文檔數(shù)據(jù)集,計(jì)算待處理文檔集中的每個(gè)詞語的詞頻、平??均詞頻并保存

類圖,模塊,步驟,二階


隱馬爾可夫模型(HiddenMarkovModel,HMM)設(shè)計(jì)的分詞模塊對于未登錄詞??具有很好的識別效果。本模塊的輸入數(shù)據(jù)為原始網(wǎng)頁文本數(shù)據(jù),經(jīng)過本模塊的處??理,實(shí)現(xiàn)將原始字符序列切分為獨(dú)立的中文詞該模塊的流程圖如圖4-4所示。???i???HMM模麵[練???I???保擁K4M鶴??輸入待分詞文本??維特比靜臟???I???保存分詞結(jié)果??T??(結(jié)束)??圖4-4分詞模塊流程圖??分詞模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練二階HMM模型。??步驟2:保存訓(xùn)練好的二階HMM模型,供后續(xù)使用。??步驟3:將待分詞語句輸入到模塊。??步驟4:載入之前訓(xùn)練好的二階HMM模型。??步驟5:利用維特比算法進(jìn)行序列標(biāo)注解碼,生成分詞器,并完成分詞。??步驟6:將分詞結(jié)果保存為.txt格式。??根據(jù)需求分析及分詞模塊流程圖,利用Java語言開發(fā)完成了分詞模塊的各??個(gè)組件,下面給出該模塊的相關(guān)類圖,如圖4-5所示??31??

類圖,詞性標(biāo)注,類圖,模塊


用復(fù)雜、有重疊性和非獨(dú)立的特征進(jìn)行訓(xùn)練和推理,為兼類詞的標(biāo)注提供了更多??的特征信息,同時(shí)根據(jù)漢語的構(gòu)詞特點(diǎn)使用詞的后綴信息作為特征,在標(biāo)注未登??錄詞時(shí)起到了很好的效果。詞性標(biāo)注模塊的流程圖如圖4-6所示。??(開始)??CRF模型訓(xùn)練???i???保細(xì)F模型???i???輸入待標(biāo)注酌??I??分詞??加載CRF模型?? ̄r ̄??麟比解碼???j???保存標(biāo)注^果??▼??(結(jié)束)??圖4-6詞性標(biāo)注模塊流程圖??詞性標(biāo)注模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練CRF模型。??步驟2:保存訓(xùn)練好的CRF模型,供后續(xù)使用。??步驟3:將待標(biāo)注語句輸入模塊。??步驟4:利用分詞模塊對語句分詞。??步驟5:將之前訓(xùn)練好的CRF模型載入系統(tǒng)。??步驟6:利用維特比算法對詞語進(jìn)行詞性標(biāo)注。??步驟7:將標(biāo)注結(jié)果保存為.txt格式。??利用java語言開發(fā)完成該模塊的各個(gè)組件,下面給出該模塊的類圖,如圖??4-7所示。??33??

【參考文獻(xiàn)】:
期刊論文
[1]基于位置敏感Embedding的中文命名實(shí)體識別[J]. 魯亞楠,孫銳,姬東鴻.  計(jì)算機(jī)應(yīng)用研究. 2017(02)
[2]統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺.  中文信息學(xué)報(bào). 2012(02)
[3]命名實(shí)體識別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨.  現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[4]《知網(wǎng)》在命名實(shí)體識別中的應(yīng)用研究[J]. 鄭逢強(qiáng),林磊,劉秉權(quán),孫承杰.  中文信息學(xué)報(bào). 2008(05)
[5]基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 胡寶順,王大玲,于戈,馬婷.  計(jì)算機(jī)學(xué)報(bào). 2008(04)
[6]基于層疊隱馬爾可夫模型的中文命名實(shí)體識別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.  通信學(xué)報(bào). 2006(02)
[7]書面漢語的自動分詞與一個(gè)自動分詞系統(tǒng)—CDWS[J]. 梁南元.  北京航空學(xué)院學(xué)報(bào). 1984(04)

碩士論文
[1]半結(jié)構(gòu)化中文簡歷的信息抽取[D]. 晏文壇.華南理工大學(xué) 2018
[2]中文詞匯語義相似度計(jì)算研究[D]. 裴家歡.大連理工大學(xué) 2017
[3]基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D]. 明廷波.電子科技大學(xué) 2006



本文編號:3517643

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3517643.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5b45e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产一区二区不卡在线视频| 91亚洲精品亚洲国产| 日本美国三级黄色aa| 国产成人精品一区二区三区| 日韩不卡一区二区视频| 亚洲av专区在线观看| 亚洲精品中文字幕无限乱码| 日韩精品小视频在线观看| 成年人免费看国产视频| 真实偷拍一区二区免费视频| 久久91精品国产亚洲| 九九蜜桃视频香蕉视频| 91蜜臀精品一区二区三区| 亚洲日本久久国产精品久久| 亚洲国产av在线视频| 欧美日韩综合在线第一页 | 五月婷婷缴情七月丁香| 老司机激情五月天在线不卡| 爱草草在线观看免费视频| 91精品视频免费播放| 欧美一级特黄特色大色大片| 亚洲天堂有码中文字幕视频| 中文字幕日产乱码一区二区| 东北女人的逼操的舒服吗| 国产精品久久香蕉国产线| 亚洲国产香蕉视频在线观看| 搡老妇女老熟女一区二区| 国产亚洲二区精品美女久久 | 好吊妞视频免费在线观看| 在线精品首页中文字幕亚洲| 国产又色又爽又黄的精品视频| 国产精品午夜视频免费观看| 日本午夜免费福利视频| 九九视频通过这里有精品| 国产精品免费福利在线| 国产免费一区二区三区av大片| 狠狠做深爱婷婷久久综合| 亚洲一区二区三区精选| 亚洲性生活一区二区三区| 欧美激情视频一区二区三区| 隔壁的日本人妻中文字幕版|