天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

自然語言敘詞表自動構(gòu)建研究

發(fā)布時間:2020-03-21 16:06
【摘要】: 一個完整的檢索系統(tǒng)包含四個子系統(tǒng),即標(biāo)引子系統(tǒng),檢索子系統(tǒng),詞表系統(tǒng)和用戶-系統(tǒng)接口。其中,詞表是檢索系統(tǒng)的基礎(chǔ),是影響檢索效率的最主要因素。 目前網(wǎng)絡(luò)信息檢索效率很低,主要原因是字面不匹配問題。為了改進檢索系統(tǒng)的性能,需要引入敘詞表等控制機制,使檢索從字面匹配層次提升到概念匹配層次,從而實現(xiàn)概念檢索。人工編制詞表準(zhǔn)確率高,但是成本高,建構(gòu)速度慢,事先選用的詞匯可能與檢索系統(tǒng)后續(xù)新進的文獻(xiàn)無關(guān);有學(xué)者經(jīng)實驗證明,通用敘詞表應(yīng)用到特定領(lǐng)域的文獻(xiàn)檢索上,無法提高檢索效率;另外,,針對每一種文獻(xiàn)領(lǐng)域制作敘詞表,既耗時又費力,所以,自動快速地構(gòu)建領(lǐng)域敘詞表是提升網(wǎng)絡(luò)信息檢索效率所迫切需要的。 針對以上問題,本文提出了一種自然語言領(lǐng)域敘詞表自動構(gòu)建方法,該方法構(gòu)建的詞表能夠在標(biāo)引和檢索兩端對輸入的自然語言進行控制,是一部“內(nèi)核受控,外殼非控”的自然語言敘詞表。 自動構(gòu)建敘詞表,是通過模式識別、同現(xiàn)分析、聚類分析等知識挖掘和自然語言處理技術(shù)自動識別詞間等同、等級和相關(guān)關(guān)系。本文主要探討詞間等級關(guān)系和相關(guān)關(guān)系的自動識別,首先以Dice測度計算詞匯之間的關(guān)聯(lián)度,構(gòu)建關(guān)聯(lián)概念空間,在此基礎(chǔ)上采用等級詞聚類算法把表述同一類事物的詞匯聚集在一起,然后通過等級識別算法識別出各簇內(nèi)的詞間等級關(guān)系;對于相關(guān)關(guān)系,主要通過關(guān)聯(lián)概念空間提示相關(guān)詞匯;對于等同關(guān)系,采用模式識別方法結(jié)合詞面相似度算法予以識別。 本文以財稅領(lǐng)域為試驗數(shù)據(jù)來源,在自動構(gòu)建一部財稅領(lǐng)域敘詞表后,將其應(yīng)用到財稅網(wǎng)頁文本的自動標(biāo)引上,把抽取的關(guān)鍵詞通過財稅詞表自動轉(zhuǎn)換為“內(nèi)核”主題詞實現(xiàn)賦詞標(biāo)引。同時,可以采用自然語言查詢詞表,系統(tǒng)會根據(jù)財稅詞表把自然語言詞匯轉(zhuǎn)換為最相關(guān)的內(nèi)核受控詞,提示給用戶使用,從而減輕用戶檢索負(fù)擔(dān)。 本文也探討了如何對自動構(gòu)建的詞表進行更新和維護,并借鑒N-gram算法,實現(xiàn)了財稅新詞的識別功能,及時對自然語言敘詞表進行補充和更新。 自然語言敘詞表自動構(gòu)建試驗系統(tǒng)采用VB.NET程序設(shè)計語言和ACCESS數(shù)據(jù)庫軟件開發(fā)而成。
【圖文】:

識別模塊,稅額,資源稅,元組


▲:11‘.~...--.-未登錄詞.~-…~.~‘圖3一3新詞識別流程(2)N一gram切分把經(jīng)過預(yù)處理得到的短句充分切分成任何可能成詞的N元組詞串。由于中文關(guān)鍵詞最大長度一般不超過巧個字符,同時考慮到詞表收錄單個字符的詞匯量很小,本文采取的方法是,把以上步驟得到的短句,充分切分成最長為巧個字符,最短為2個字符的詞串,同時統(tǒng)計各詞串的頻次。切分時把英文單詞作為單個漢字處理。如:“資源稅稅額標(biāo)準(zhǔn)”經(jīng)N元切分后得到以下結(jié)果:表3一11N元切分表222元組 組資源 源源稅 稅稅稅 稅稅額 額額標(biāo) 標(biāo)標(biāo)準(zhǔn)準(zhǔn)333元組 組資源稅 稅源稅稅 稅稅稅額 額稅額標(biāo) 標(biāo)額標(biāo)準(zhǔn)準(zhǔn) 準(zhǔn)444元組 組資源稅稅 稅源稅稅額 額稅稅額標(biāo) 標(biāo)稅額標(biāo)準(zhǔn)準(zhǔn) 準(zhǔn) 準(zhǔn)555元組 組資源稅稅額 額源稅稅額標(biāo) 標(biāo)稅稅額標(biāo)準(zhǔn)準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn)666元組 組資源稅稅額標(biāo) 標(biāo)源稅稅額標(biāo)準(zhǔn)準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn)777元組 組資源稅稅額標(biāo)準(zhǔn)準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn) 準(zhǔn)對于單篇文獻(xiàn),其論述主題用到的新詞,一般會多次反復(fù)引用。所以在詞頻統(tǒng)計完成后,把詞頻為1的詞串作刪除標(biāo)記,既減少噪音,又能提高后續(xù)篩詞的效率。36

界面圖,詞素,聚類,界面


自然語言敘詞表自動構(gòu)建研究圖4一8等級識別結(jié)果示例4.3詞素聚類方法考察中文構(gòu)詞特點,涵義相近的詞匯在字面上往往含有相同的詞素,具有等級關(guān)系的詞匯含有相同詞根的現(xiàn)象也很普遍。根據(jù)漢語字面成族特點,可以聚集部分等級關(guān)系詞匯,這種方法簡便易行,但無法識別不具備這一特點的等級關(guān)系詞匯,同時聚集的詞匯中也往往含有非等級詞匯,所以該方法適用范圍有限。本文采用按詞素后方一致或前方一致聚類的方法,以輔助基于相似度矩陣的詞聚類方法,盡量收全具有等級關(guān)系的詞匯。下文以“稅收”、“稅收管理”等詞為例說明詞素聚類的處理過程:(l)根據(jù)同義詞識別過程中制作的詞素表,按最大正向匹配算法對內(nèi)核表中的語詞進行詞素切分,同時記錄每個詞匯包含的所有詞素。如表4一12所示
【學(xué)位授予單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2007
【分類號】:G354

【相似文獻(xiàn)】

相關(guān)碩士學(xué)位論文 前1條

1 杜慧平;自然語言敘詞表自動構(gòu)建研究[D];南京農(nóng)業(yè)大學(xué);2007年



本文編號:2593584

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2593584.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c27b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com