基于改進(jìn)TF-IDF算法的信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-25 07:06
互聯(lián)網(wǎng)技術(shù)的高速發(fā)展帶來信息的爆發(fā)式式增長,同時(shí)這些網(wǎng)絡(luò)信息中夾雜大量冗余、干擾信息,如何快速有效地對大量網(wǎng)絡(luò)噪音信息進(jìn)行過濾并對目標(biāo)信息進(jìn)行有效抽取成為研究的焦點(diǎn)之一。自然語言處理技術(shù)能夠通過對篇章、段落、句子、詞語進(jìn)行基于詞向量、句向量的處理過程,提取文本的主題、語義等信息,識別相似語義信息,消除反義等噪音干擾,達(dá)到對特定文檔實(shí)現(xiàn)信息抽取的目的。基于詞頻與逆文檔頻率的關(guān)鍵字提取算法(term frequency-inverse document frequency,TF-IDF)作為經(jīng)典的文本關(guān)鍵字提取算法之一已經(jīng)得到了非常廣泛的應(yīng)用,其獲取文檔關(guān)鍵字的方法是對詞頻(Term Frequency,TF)進(jìn)行統(tǒng)計(jì),某個(gè)詞語出現(xiàn)次數(shù)越多,則文章可能與這個(gè)詞語有正向關(guān)聯(lián)性,同時(shí)通過逆文檔頻率(Inverse Document Frequency,IDF)減少常見詞的權(quán)重。然而傳統(tǒng)TF-IDF算法在實(shí)際應(yīng)用中還存在很多待改進(jìn)問題,例如沒有考慮文檔中詞語不完整分類、忽略特征詞之間的分布信息等缺點(diǎn)。盡管有研究學(xué)者對傳統(tǒng)TF-IDF算法進(jìn)行了改進(jìn),但仍簡單將詞頻和權(quán)重掛鉤,未考慮詞語在不同文檔的...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1?TFIDF-BOIT算法流程圖??改進(jìn)算法流程如下:??步驟1:載入文本文檔數(shù)據(jù)集,計(jì)算待處理文檔集中的每個(gè)詞語的詞頻、平??均詞頻并保存
隱馬爾可夫模型(HiddenMarkovModel,HMM)設(shè)計(jì)的分詞模塊對于未登錄詞??具有很好的識別效果。本模塊的輸入數(shù)據(jù)為原始網(wǎng)頁文本數(shù)據(jù),經(jīng)過本模塊的處??理,實(shí)現(xiàn)將原始字符序列切分為獨(dú)立的中文詞該模塊的流程圖如圖4-4所示。???i???HMM模麵[練???I???保擁K4M鶴??輸入待分詞文本??維特比靜臟???I???保存分詞結(jié)果??T??(結(jié)束)??圖4-4分詞模塊流程圖??分詞模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練二階HMM模型。??步驟2:保存訓(xùn)練好的二階HMM模型,供后續(xù)使用。??步驟3:將待分詞語句輸入到模塊。??步驟4:載入之前訓(xùn)練好的二階HMM模型。??步驟5:利用維特比算法進(jìn)行序列標(biāo)注解碼,生成分詞器,并完成分詞。??步驟6:將分詞結(jié)果保存為.txt格式。??根據(jù)需求分析及分詞模塊流程圖,利用Java語言開發(fā)完成了分詞模塊的各??個(gè)組件,下面給出該模塊的相關(guān)類圖,如圖4-5所示??31??
用復(fù)雜、有重疊性和非獨(dú)立的特征進(jìn)行訓(xùn)練和推理,為兼類詞的標(biāo)注提供了更多??的特征信息,同時(shí)根據(jù)漢語的構(gòu)詞特點(diǎn)使用詞的后綴信息作為特征,在標(biāo)注未登??錄詞時(shí)起到了很好的效果。詞性標(biāo)注模塊的流程圖如圖4-6所示。??(開始)??CRF模型訓(xùn)練???i???保細(xì)F模型???i???輸入待標(biāo)注酌??I??分詞??加載CRF模型?? ̄r ̄??麟比解碼???j???保存標(biāo)注^果??▼??(結(jié)束)??圖4-6詞性標(biāo)注模塊流程圖??詞性標(biāo)注模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練CRF模型。??步驟2:保存訓(xùn)練好的CRF模型,供后續(xù)使用。??步驟3:將待標(biāo)注語句輸入模塊。??步驟4:利用分詞模塊對語句分詞。??步驟5:將之前訓(xùn)練好的CRF模型載入系統(tǒng)。??步驟6:利用維特比算法對詞語進(jìn)行詞性標(biāo)注。??步驟7:將標(biāo)注結(jié)果保存為.txt格式。??利用java語言開發(fā)完成該模塊的各個(gè)組件,下面給出該模塊的類圖,如圖??4-7所示。??33??
【參考文獻(xiàn)】:
期刊論文
[1]基于位置敏感Embedding的中文命名實(shí)體識別[J]. 魯亞楠,孫銳,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(02)
[2]統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺. 中文信息學(xué)報(bào). 2012(02)
[3]命名實(shí)體識別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[4]《知網(wǎng)》在命名實(shí)體識別中的應(yīng)用研究[J]. 鄭逢強(qiáng),林磊,劉秉權(quán),孫承杰. 中文信息學(xué)報(bào). 2008(05)
[5]基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 胡寶順,王大玲,于戈,馬婷. 計(jì)算機(jī)學(xué)報(bào). 2008(04)
[6]基于層疊隱馬爾可夫模型的中文命名實(shí)體識別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[7]書面漢語的自動分詞與一個(gè)自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學(xué)院學(xué)報(bào). 1984(04)
碩士論文
[1]半結(jié)構(gòu)化中文簡歷的信息抽取[D]. 晏文壇.華南理工大學(xué) 2018
[2]中文詞匯語義相似度計(jì)算研究[D]. 裴家歡.大連理工大學(xué) 2017
[3]基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D]. 明廷波.電子科技大學(xué) 2006
本文編號:3517643
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1?TFIDF-BOIT算法流程圖??改進(jìn)算法流程如下:??步驟1:載入文本文檔數(shù)據(jù)集,計(jì)算待處理文檔集中的每個(gè)詞語的詞頻、平??均詞頻并保存
隱馬爾可夫模型(HiddenMarkovModel,HMM)設(shè)計(jì)的分詞模塊對于未登錄詞??具有很好的識別效果。本模塊的輸入數(shù)據(jù)為原始網(wǎng)頁文本數(shù)據(jù),經(jīng)過本模塊的處??理,實(shí)現(xiàn)將原始字符序列切分為獨(dú)立的中文詞該模塊的流程圖如圖4-4所示。???i???HMM模麵[練???I???保擁K4M鶴??輸入待分詞文本??維特比靜臟???I???保存分詞結(jié)果??T??(結(jié)束)??圖4-4分詞模塊流程圖??分詞模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練二階HMM模型。??步驟2:保存訓(xùn)練好的二階HMM模型,供后續(xù)使用。??步驟3:將待分詞語句輸入到模塊。??步驟4:載入之前訓(xùn)練好的二階HMM模型。??步驟5:利用維特比算法進(jìn)行序列標(biāo)注解碼,生成分詞器,并完成分詞。??步驟6:將分詞結(jié)果保存為.txt格式。??根據(jù)需求分析及分詞模塊流程圖,利用Java語言開發(fā)完成了分詞模塊的各??個(gè)組件,下面給出該模塊的相關(guān)類圖,如圖4-5所示??31??
用復(fù)雜、有重疊性和非獨(dú)立的特征進(jìn)行訓(xùn)練和推理,為兼類詞的標(biāo)注提供了更多??的特征信息,同時(shí)根據(jù)漢語的構(gòu)詞特點(diǎn)使用詞的后綴信息作為特征,在標(biāo)注未登??錄詞時(shí)起到了很好的效果。詞性標(biāo)注模塊的流程圖如圖4-6所示。??(開始)??CRF模型訓(xùn)練???i???保細(xì)F模型???i???輸入待標(biāo)注酌??I??分詞??加載CRF模型?? ̄r ̄??麟比解碼???j???保存標(biāo)注^果??▼??(結(jié)束)??圖4-6詞性標(biāo)注模塊流程圖??詞性標(biāo)注模塊流程如下:??步驟1:利用標(biāo)注語料訓(xùn)練CRF模型。??步驟2:保存訓(xùn)練好的CRF模型,供后續(xù)使用。??步驟3:將待標(biāo)注語句輸入模塊。??步驟4:利用分詞模塊對語句分詞。??步驟5:將之前訓(xùn)練好的CRF模型載入系統(tǒng)。??步驟6:利用維特比算法對詞語進(jìn)行詞性標(biāo)注。??步驟7:將標(biāo)注結(jié)果保存為.txt格式。??利用java語言開發(fā)完成該模塊的各個(gè)組件,下面給出該模塊的類圖,如圖??4-7所示。??33??
【參考文獻(xiàn)】:
期刊論文
[1]基于位置敏感Embedding的中文命名實(shí)體識別[J]. 魯亞楠,孫銳,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(02)
[2]統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺. 中文信息學(xué)報(bào). 2012(02)
[3]命名實(shí)體識別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[4]《知網(wǎng)》在命名實(shí)體識別中的應(yīng)用研究[J]. 鄭逢強(qiáng),林磊,劉秉權(quán),孫承杰. 中文信息學(xué)報(bào). 2008(05)
[5]基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 胡寶順,王大玲,于戈,馬婷. 計(jì)算機(jī)學(xué)報(bào). 2008(04)
[6]基于層疊隱馬爾可夫模型的中文命名實(shí)體識別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[7]書面漢語的自動分詞與一個(gè)自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學(xué)院學(xué)報(bào). 1984(04)
碩士論文
[1]半結(jié)構(gòu)化中文簡歷的信息抽取[D]. 晏文壇.華南理工大學(xué) 2018
[2]中文詞匯語義相似度計(jì)算研究[D]. 裴家歡.大連理工大學(xué) 2017
[3]基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D]. 明廷波.電子科技大學(xué) 2006
本文編號:3517643
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3517643.html
最近更新
教材專著