電子政務(wù)主題詞表的構(gòu)建及應(yīng)用研究
發(fā)布時間:2021-12-28 08:03
目前,電子政務(wù)信息的組織和檢索基本上是基于關(guān)鍵字的全文檢索形式,不能滿足用戶的多途徑檢索需求,其檢全率和檢準(zhǔn)率較低。因此,電子政務(wù)主題詞表對于電子政務(wù)信息的組織和檢索具有十分重要的意義。而傳統(tǒng)的詞表編制的方法成本高、需要花費大量的人力、物力,研究用計算機(jī)來自動構(gòu)建一部詞表是十分必要的。本文參照國內(nèi)已出版的《綜合電子政務(wù)主題詞表》,提出自動構(gòu)建一部面向共青團(tuán)領(lǐng)域的專業(yè)性電子政務(wù)詞表。國外對自動構(gòu)建一部關(guān)聯(lián)詞表研究較多,即對詞與詞之間相關(guān)關(guān)系的研究,而對完全用計算機(jī)來編制一部規(guī)范的主題詞表則少有研究。國內(nèi)對自動構(gòu)建詞表的研究更加滯后,更很少真正實現(xiàn)用計算機(jī)來自動構(gòu)建一部詞表。本文對國內(nèi)外自動構(gòu)建關(guān)聯(lián)詞表的研究進(jìn)行了全面的文獻(xiàn)調(diào)查,在系統(tǒng)分析關(guān)聯(lián)詞表詞間關(guān)系特點和詞表自動構(gòu)建的一般方法的基礎(chǔ)上,提出用N-gram方法進(jìn)行選詞、用模式匹配和詞典匹配的方法來識別詞匯的等同關(guān)系、用字面相似度后方一致原理來揭示詞匯的等級關(guān)系、用Dice測度算法來判斷詞匯的相關(guān)關(guān)系,從而實現(xiàn)計算機(jī)對電子政務(wù)詞表的自動構(gòu)建。然后將自動構(gòu)建詞表中部分詞匯的詞間關(guān)系與《中國分類主題詞表》、《綜合電子政務(wù)主題詞表》進(jìn)行比較,...
【文章來源】:南京農(nóng)業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
電子政務(wù)主題詞表自動構(gòu)建系統(tǒng)
數(shù)據(jù)導(dǎo)入成功后,系統(tǒng)會彈出提示框。(2)字符串生成:包括句子劃分和字符串生成兩部分。在此說明一下,本系文件導(dǎo)入數(shù)據(jù)庫的同時,就做了預(yù)處理,即去掉停用詞,設(shè)置切分標(biāo)記。系統(tǒng)切分標(biāo)記將一篇網(wǎng)頁先劃分成若干個句子,然后將每個句子中的一元詞(n=1),詞(n=2)””’‘(n自5)即符合條件的所有子字符串生成出來。布樸(3)分詞:首先根據(jù)“分詞”窗口下的提示符串生成”的文件記錄,點擊“計算權(quán)值”,“計算字符串的權(quán)值”,選擇嘩即根據(jù)詞頻和詞長對選擇的文件有提取出來的字符串進(jìn)行權(quán)值計算。然后根據(jù)提示“進(jìn)行記錄的分詞”,選擇己“權(quán)值計算”的文件,點擊“分詞”,幾即可把該文件中的關(guān)鍵詞提取出來。最后選擇已進(jìn)行分詞的文件記錄,點擊“查看關(guān)鍵詞”,即可查看相應(yīng)網(wǎng)頁文件中被出來的關(guān)鍵詞。(過濾詞表)(4)輸出:根據(jù)對話框中的提示“選擇輸出的記錄”,選擇己進(jìn)行關(guān)鍵詞提取頁文件,點擊“導(dǎo)出為TxT文檔”,即可把抽取出的關(guān)鍵詞連同相應(yīng)的網(wǎng)頁文件從數(shù)據(jù)庫中導(dǎo)入到文本文件中。如圖6--2所示:
按字順瀏覽主題詞界面紐瀏覽提供兩種途徑:按26個字母的音序進(jìn)行瀏覽和在檢索框中輸入相關(guān)的詞進(jìn)
【參考文獻(xiàn)】:
期刊論文
[1]中文詞聚類研究[J]. 胡和平,曾慶銳,路松峰. 計算機(jī)工程與科學(xué). 2006(01)
[2]基于混合策略的中文查詢串相似度計算[J]. 章成敏,鞠海燕. 情報雜志. 2005(11)
[3]基于語義網(wǎng)技術(shù)的主題詞自動標(biāo)引[J]. 楊芳,楊振山. 計算機(jī)工程與設(shè)計. 2005(10)
[4]基于語義網(wǎng)的電子政務(wù)文檔智能檢索[J]. 楊芳,楊振山. 計算機(jī)應(yīng)用. 2005(10)
[5]基于詞同現(xiàn)頻率的文本特征描述[J]. 余剛,陳華月,朱征宇,高原. 計算機(jī)工程與設(shè)計. 2005(08)
[6]基于電子政務(wù)主題詞表的中文匹配方法[J]. 楊芳. 情報雜志. 2005(08)
[7]基于情報檢索的漢語同義詞識別初探[J]. 劉華梅,侯漢清. 情報理論與實踐. 2005(04)
[8]一種基于生語料的領(lǐng)域詞典生成方法[J]. 孫霞,鄭慶華,王朝靜,張素娟. 小型微型計算機(jī)系統(tǒng). 2005(06)
[9]支持CSCL中相關(guān)度監(jiān)控的領(lǐng)域詞典構(gòu)建研究[J]. 馮蜀茗,張小真,奚曉霞. 西南師范大學(xué)學(xué)報(自然科學(xué)版). 2005(03)
[10]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機(jī)工程與應(yīng)用. 2005(07)
博士論文
[1]基于粗糙集理論的文本自動分類研究[D]. 張雪英.南京理工大學(xué) 2005
碩士論文
[1]面向信息檢索的漢語同義詞自動識別[D]. 陸勇.南京農(nóng)業(yè)大學(xué) 2005
[2]基于語義檢索的概念空間研究[D]. 王國琴.南京理工大學(xué) 2004
[3]智能搜索引擎中的同義詞識別算法研究[D]. 朱毅華.南京農(nóng)業(yè)大學(xué) 2001
本文編號:3553722
【文章來源】:南京農(nóng)業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
電子政務(wù)主題詞表自動構(gòu)建系統(tǒng)
數(shù)據(jù)導(dǎo)入成功后,系統(tǒng)會彈出提示框。(2)字符串生成:包括句子劃分和字符串生成兩部分。在此說明一下,本系文件導(dǎo)入數(shù)據(jù)庫的同時,就做了預(yù)處理,即去掉停用詞,設(shè)置切分標(biāo)記。系統(tǒng)切分標(biāo)記將一篇網(wǎng)頁先劃分成若干個句子,然后將每個句子中的一元詞(n=1),詞(n=2)””’‘(n自5)即符合條件的所有子字符串生成出來。布樸(3)分詞:首先根據(jù)“分詞”窗口下的提示符串生成”的文件記錄,點擊“計算權(quán)值”,“計算字符串的權(quán)值”,選擇嘩即根據(jù)詞頻和詞長對選擇的文件有提取出來的字符串進(jìn)行權(quán)值計算。然后根據(jù)提示“進(jìn)行記錄的分詞”,選擇己“權(quán)值計算”的文件,點擊“分詞”,幾即可把該文件中的關(guān)鍵詞提取出來。最后選擇已進(jìn)行分詞的文件記錄,點擊“查看關(guān)鍵詞”,即可查看相應(yīng)網(wǎng)頁文件中被出來的關(guān)鍵詞。(過濾詞表)(4)輸出:根據(jù)對話框中的提示“選擇輸出的記錄”,選擇己進(jìn)行關(guān)鍵詞提取頁文件,點擊“導(dǎo)出為TxT文檔”,即可把抽取出的關(guān)鍵詞連同相應(yīng)的網(wǎng)頁文件從數(shù)據(jù)庫中導(dǎo)入到文本文件中。如圖6--2所示:
按字順瀏覽主題詞界面紐瀏覽提供兩種途徑:按26個字母的音序進(jìn)行瀏覽和在檢索框中輸入相關(guān)的詞進(jìn)
【參考文獻(xiàn)】:
期刊論文
[1]中文詞聚類研究[J]. 胡和平,曾慶銳,路松峰. 計算機(jī)工程與科學(xué). 2006(01)
[2]基于混合策略的中文查詢串相似度計算[J]. 章成敏,鞠海燕. 情報雜志. 2005(11)
[3]基于語義網(wǎng)技術(shù)的主題詞自動標(biāo)引[J]. 楊芳,楊振山. 計算機(jī)工程與設(shè)計. 2005(10)
[4]基于語義網(wǎng)的電子政務(wù)文檔智能檢索[J]. 楊芳,楊振山. 計算機(jī)應(yīng)用. 2005(10)
[5]基于詞同現(xiàn)頻率的文本特征描述[J]. 余剛,陳華月,朱征宇,高原. 計算機(jī)工程與設(shè)計. 2005(08)
[6]基于電子政務(wù)主題詞表的中文匹配方法[J]. 楊芳. 情報雜志. 2005(08)
[7]基于情報檢索的漢語同義詞識別初探[J]. 劉華梅,侯漢清. 情報理論與實踐. 2005(04)
[8]一種基于生語料的領(lǐng)域詞典生成方法[J]. 孫霞,鄭慶華,王朝靜,張素娟. 小型微型計算機(jī)系統(tǒng). 2005(06)
[9]支持CSCL中相關(guān)度監(jiān)控的領(lǐng)域詞典構(gòu)建研究[J]. 馮蜀茗,張小真,奚曉霞. 西南師范大學(xué)學(xué)報(自然科學(xué)版). 2005(03)
[10]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機(jī)工程與應(yīng)用. 2005(07)
博士論文
[1]基于粗糙集理論的文本自動分類研究[D]. 張雪英.南京理工大學(xué) 2005
碩士論文
[1]面向信息檢索的漢語同義詞自動識別[D]. 陸勇.南京農(nóng)業(yè)大學(xué) 2005
[2]基于語義檢索的概念空間研究[D]. 王國琴.南京理工大學(xué) 2004
[3]智能搜索引擎中的同義詞識別算法研究[D]. 朱毅華.南京農(nóng)業(yè)大學(xué) 2001
本文編號:3553722
本文鏈接:http://sikaile.net/tushudanganlunwen/3553722.html