基于改進TF-IDF算法的信息抽取系統(tǒng)設計與實現(xiàn)

發(fā)布時間：2021-11-25 07:06

　　互聯(lián)網(wǎng)技術的高速發(fā)展帶來信息的爆發(fā)式式增長,同時這些網(wǎng)絡信息中夾雜大量冗余、干擾信息,如何快速有效地對大量網(wǎng)絡噪音信息進行過濾并對目標信息進行有效抽取成為研究的焦點之一。自然語言處理技術能夠通過對篇章、段落、句子、詞語進行基于詞向量、句向量的處理過程,提取文本的主題、語義等信息,識別相似語義信息,消除反義等噪音干擾,達到對特定文檔實現(xiàn)信息抽取的目的�；谠~頻與逆文檔頻率的關鍵字提取算法（term frequency-inverse document frequency,TF-IDF）作為經(jīng)典的文本關鍵字提取算法之一已經(jīng)得到了非常廣泛的應用,其獲取文檔關鍵字的方法是對詞頻（Term Frequency,TF）進行統(tǒng)計,某個詞語出現(xiàn)次數(shù)越多,則文章可能與這個詞語有正向關聯(lián)性,同時通過逆文檔頻率（Inverse Document Frequency,IDF）減少常見詞的權重。然而傳統(tǒng)TF-IDF算法在實際應用中還存在很多待改進問題,例如沒有考慮文檔中詞語不完整分類、忽略特征詞之間的分布信息等缺點。盡管有研究學者對傳統(tǒng)TF-IDF算法進行了改進,但仍簡單將詞頻和權重掛鉤,未考慮詞語在不同文檔的...

【文章來源】：北京郵電大學北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：73 頁

【學位級別】：碩士

【部分圖文】：

圖３－１?ＴＦＩＤＦ－ＢＯＩＴ算法流程圖??改進算法流程如下：??步驟１：載入文本文檔數(shù)據(jù)集，計算待處理文檔集中的每個詞語的詞頻、平??均詞頻并保存

類圖,模塊,步驟,二階

隱馬爾可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）設計的分詞模塊對于未登錄詞??具有很好的識別效果。本模塊的輸入數(shù)據(jù)為原始網(wǎng)頁文本數(shù)據(jù)，經(jīng)過本模塊的處??理，實現(xiàn)將原始字符序列切分為獨立的中文詞該模塊的流程圖如圖４－４所示。???ｉ???ＨＭＭ模麵［練???Ｉ???保擁Ｋ４Ｍ鶴??輸入待分詞文本??維特比靜臟???Ｉ???保存分詞結(jié)果??Ｔ??（結(jié)束）??圖４－４分詞模塊流程圖??分詞模塊流程如下：??步驟１：利用標注語料訓練二階ＨＭＭ模型。??步驟２：保存訓練好的二階ＨＭＭ模型，供后續(xù)使用。??步驟３：將待分詞語句輸入到模塊。??步驟４：載入之前訓練好的二階ＨＭＭ模型。??步驟５：利用維特比算法進行序列標注解碼，生成分詞器，并完成分詞。??步驟６：將分詞結(jié)果保存為．ｔｘｔ格式。??根據(jù)需求分析及分詞模塊流程圖，利用Ｊａｖａ語言開發(fā)完成了分詞模塊的各??個組件，下面給出該模塊的相關類圖，如圖４－５所示??３１??

類圖,詞性標注,類圖,模塊

用復雜、有重疊性和非獨立的特征進行訓練和推理，為兼類詞的標注提供了更多??的特征信息，同時根據(jù)漢語的構(gòu)詞特點使用詞的后綴信息作為特征，在標注未登??錄詞時起到了很好的效果。詞性標注模塊的流程圖如圖４－６所示。??（開始）??ＣＲＦ模型訓練???ｉ???保細Ｆ模型???ｉ???輸入待標注酌??Ｉ??分詞??加載ＣＲＦ模型??￣ｒ￣??麟比解碼???ｊ???保存標注＾果??▼??（結(jié)束）??圖４－６詞性標注模塊流程圖??詞性標注模塊流程如下：??步驟１：利用標注語料訓練ＣＲＦ模型。??步驟２：保存訓練好的ＣＲＦ模型，供后續(xù)使用。??步驟３：將待標注語句輸入模塊。??步驟４：利用分詞模塊對語句分詞。??步驟５：將之前訓練好的ＣＲＦ模型載入系統(tǒng)。??步驟６：利用維特比算法對詞語進行詞性標注。??步驟７：將標注結(jié)果保存為．ｔｘｔ格式。??利用ｊａｖａ語言開發(fā)完成該模塊的各個組件，下面給出該模塊的類圖，如圖??４－７所示。??３３??

【參考文獻】：
期刊論文
[1]基于位置敏感Embedding的中文命名實體識別[J]. 魯亞楠,孫銳,姬東鴻.  計算機應用研究. 2017(02)
[2]統(tǒng)計與詞典相結(jié)合的領域自適應中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺.  中文信息學報. 2012(02)
[3]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨.  現(xiàn)代圖書情報技術. 2010(06)
[4]《知網(wǎng)》在命名實體識別中的應用研究[J]. 鄭逢強,林磊,劉秉權,孫承杰.  中文信息學報. 2008(05)
[5]基于句法結(jié)構(gòu)特征分析及分類技術的答案提取算法[J]. 胡寶順,王大玲,于戈,馬婷.  計算機學報. 2008(04)
[6]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才.  通信學報. 2006(02)
[7]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元.  北京航空學院學報. 1984(04)

碩士論文
[1]半結(jié)構(gòu)化中文簡歷的信息抽取[D]. 晏文壇.華南理工大學 2018
[2]中文詞匯語義相似度計算研究[D]. 裴家歡.大連理工大學 2017
[3]基于神經(jīng)網(wǎng)絡的Web信息抽取系統(tǒng)的研究與實現(xiàn)[D]. 明廷波.電子科技大學 2006

本文編號：3517643

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3517643.html

上一篇：基于集成學習技術的代碼克隆檢測方法研究
下一篇：客戶價值聚類與流失預測系統(tǒng)的設計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進TF-IDF算法的信息抽取系統(tǒng)設計與實現(xiàn)