基于語料庫的公文縮略語知識挖掘研究
本文關(guān)鍵詞:基于語料庫的公文縮略語知識挖掘研究
更多相關(guān)文章: 語料庫 公文 縮略語 相關(guān)性 知識挖掘
【摘要】:縮略語的自動識別是公文自動理解的重點。當(dāng)今時代信息化高度發(fā)達,大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算日益擴大影響范圍并逐漸進入人們的日常生活,社會管理智能化水平不斷提高。社會管理智能化要求強化信息資源開發(fā)利用和整合共享,將計算機網(wǎng)絡(luò)等現(xiàn)代信息化技術(shù)運用于社會管理各方面、各環(huán)節(jié),促進智能化技術(shù)在公共行政、社會管理與服務(wù)的廣泛應(yīng)用,大幅提升社會管理的效率與效益。面對現(xiàn)代社會生活中地位重要、種類繁多、信息海量的公文,單純依靠人工進行處理效率很低,費時耗力;對公文信息進行簡單的檢索、維護和獲取也已不能滿足人們的需求。如何利用計算機信息處理技術(shù)有效對海量公文數(shù)據(jù)進行自動理解,提高公文信息處理智能化水平,成為時代和社會的迫切要求。因此,對公文進行自動理解和處理,實現(xiàn)辦公自動化,是社會管理智能化的一項重要任務(wù),其關(guān)鍵是綜合分析公文一切可以利用的特征和標志性成分,從中挖掘其特征、規(guī)律、發(fā)展趨勢及應(yīng)用價值等信息。 縮略語作為公文詞匯的重要組成部分,形式上具有鮮明的標志性特征,意義上具有獨特豐富的內(nèi)涵,是公文中的重要標志性成分。因此,對公文縮略語進行知識挖掘,是公文自動理解的重要任務(wù)。 同時,縮略語的自動識別也是公文自動理解的難點。從形式來看,縮略語很多都是“表外詞”或“未登錄詞”,需要依據(jù)詞表進行自動分詞的計算機難以準確識別。從語義來看,縮略語雖然形式簡單,但是往往內(nèi)涵獨特豐富,單純從字面上很難理解和把握,即使人工智能水平較高的計算機程序也難以準確全面地理解公文縮略語的“微言大義”。 公文縮略語知識挖掘研究,就是通過對靜態(tài)和動態(tài)系統(tǒng)的公文縮略語進行統(tǒng)計、分析、歸納、比較,從中發(fā)現(xiàn)公文縮略語的構(gòu)造特征、語義特點等靜態(tài)屬性以及其動態(tài)使用和發(fā)展變化的規(guī)律等,為公文縮略語的自動識別提供思路和方法,服務(wù)于公文智能化信息處理。公文縮略語知識挖掘,可以為公文縮略語的自動識別提供理論和實踐上的支撐,有助于進一步完善和優(yōu)化有關(guān)自動分詞軟件的性能,提高公文自動理解的效率和準確度,在一定程度上破解公文自動理解的難題。此外,它還可以對漢語縮略語進行深入的統(tǒng)計描寫,為共同語的研究做出貢獻,為探求社會政治和文化發(fā)展演變提供參考等等,具有重要的理論意義和應(yīng)用參考價值。 為挖掘縮略語在形式、意義等方面的特征和規(guī)律,本文建立了公文主題詞表、11種專門縮略語詞典和《現(xiàn)代漢語詞典》所見縮略語的數(shù)據(jù)庫,通過對縮略語在靜態(tài)系統(tǒng)中的縮略方式、詞長、結(jié)構(gòu)、詞性等屬性的統(tǒng)計分析,發(fā)現(xiàn)抽取核心語素的方式是縮略語主要的縮略方式。而抽取核心語素形成的縮略語組成成分之間是一種隨機變量的關(guān)系,其相關(guān)性的高低對縮略語的識別具有重要意義,為基于相關(guān)性理論識別公文縮略語提供了思路。 為深入考察公文縮略語的運用情況,驗證靜態(tài)系統(tǒng)縮略語知識挖掘的結(jié)論,本文建立了1200余萬字的當(dāng)代漢語政教類公文抽樣語料庫,通過分詞、標注、人工校對等加工后,對其中的縮略語動態(tài)分布情況進行了抽樣統(tǒng)計和定量分析,結(jié)果證明縮略語動態(tài)存在的屬性特征與靜態(tài)系統(tǒng)縮略語知識挖掘的結(jié)論是一致的。在此基礎(chǔ)上,我們抽樣統(tǒng)計了語料庫中詞語的二元相關(guān)性組合,進行從中識別和抽取縮略語的實驗,獲得了比較理想的結(jié)果。 全文共分六章。 第一章緒論。介紹選題的目的和意義、研究現(xiàn)狀以及指導(dǎo)理論和研究方法等。漢語詞匯學(xué)理論、計量語言學(xué)理論、語言文字信息處理及辦公自動化理論是本研究的主要指導(dǎo)理論,語料庫語言學(xué)、靜態(tài)與動態(tài)相結(jié)合、定量與定性相結(jié)合的方法是本文的主要研究方法。 第二章公文縮略語知識挖掘基礎(chǔ)研究。通過對公文主題詞表、11種專門縮略語詞典和《現(xiàn)代漢語詞典》縮略語的統(tǒng)計分析,歸納縮略語在縮略方式、詞長、結(jié)構(gòu)和功能屬性等方面的特征。從中發(fā)現(xiàn):抽取核心語素的方式是縮略語的主要縮略方式,其組成成分之間是一種隨機變量的關(guān)系,其頻度是重要參數(shù),可以依據(jù)相關(guān)性理論進行識別;名詞性縮略語和動詞性縮略語是知識挖掘的重點;數(shù)字統(tǒng)括式縮略語重要的語法功能特征是意義上具有合理性的“數(shù)詞+名詞”、“數(shù)詞+動詞”組合,這一特征為數(shù)字統(tǒng)括式縮略語的自動識別提供了重要思路。由此得出:以相關(guān)性理論為基礎(chǔ)理論,將縮略語構(gòu)成成分之間的相關(guān)性作為基礎(chǔ)參數(shù),將其功能屬性作為輔助參數(shù),重點考察研究詞長為二至四音節(jié)的縮略語,可以作為公文縮略語自動識別的基本路徑。 第三章政教類公文抽樣語料庫的研制。介紹公文語料庫研制的目的、抽樣原則和方法、語料庫規(guī)模、語料加工等,特別是對語料庫自動分詞標注中的偏誤進行的人工校對。 第四章基于語料庫的公文縮略語定量分析。統(tǒng)計分析公文語料庫與專門縮略語詞典共現(xiàn)縮略語在縮略方式、詞長、結(jié)構(gòu)和功能屬性等方面的動態(tài)分布情況,驗證了靜態(tài)系統(tǒng)縮略語知識歸納所得到的基本結(jié)論。 第五章公文縮略語的自動識別研究。這是本研究的主體內(nèi)容和主要創(chuàng)新點,主要是根據(jù)靜態(tài)和動態(tài)系統(tǒng)縮略語知識挖掘所提供的思路,基于二元相關(guān)性理論,對語料庫中的詞語組合進行二元相關(guān)性抽樣統(tǒng)計,將二元相關(guān)性組合的頻次和功能屬性作為重要參數(shù),重點對“1+1”式、“1+2”式、“2+1”式、“2+2”式、“數(shù)詞+名詞”模式和“數(shù)詞+動詞”模式的二元相關(guān)性組合進行縮略語識別和抽取實驗,獲得了比較理想的結(jié)果。由此得出如下結(jié)論:基于相關(guān)性理論,通過對詞語二元相關(guān)性組合的統(tǒng)計分析進行縮略語識別和抽取思路正確;縮略語識別和抽取的重點應(yīng)該是“1+1”式、“1+2”式和“2+1”式的組合;頻次和功能屬性是縮略語自動識別過程中應(yīng)該參考的重要參數(shù),將二者結(jié)合起來考察可增強縮略語識別和抽取的針對性、可行性和有效性;公文中的準縮略語,比如“教發(fā)、司函、廳函、教督、教辦、教人、湘政函、豫政函、云政函、冀政函、閩政函”等,有助于計算機識別公文的形式、來源和制發(fā)單位等等,對其進行自動識別,應(yīng)該將“名詞+名詞”模式的二元相關(guān)性組合作為重點來考察;數(shù)字統(tǒng)括式縮略語可以重點從“數(shù)詞+名詞”模式和“數(shù)詞+動詞”模式的二元相關(guān)性高頻組合中識別和抽取。 第六章結(jié)語。對本研究的基本理論和思路、存在的不足進行概括評價和總結(jié),認為基于二元相關(guān)性理論進行公文縮略語自動識別可行有效,并提出了公文縮略語動態(tài)詞表優(yōu)化的基本原則。
【關(guān)鍵詞】:語料庫 公文 縮略語 相關(guān)性 知識挖掘
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:H136
【目錄】:
- 中文摘要10-14
- ABSTRACT14-18
- 第一章 緒論18-38
- 1.1 選題的目的和意義18-30
- 1.1.1 縮略語是公文的重要標志性成分18-24
- 1.1.2 公文縮略語知識挖掘的意義24-30
- 1.2 本選題的研究現(xiàn)狀30-35
- 1.2.1 公文縮略語研究現(xiàn)狀30-34
- 1.2.2 縮略語研究中有待解決的問題34-35
- 1.3 研究內(nèi)容、指導(dǎo)理論和研究方法35-38
- 1.3.1 研究內(nèi)容35
- 1.3.2 指導(dǎo)理論35-36
- 1.3.3 研究方法36-38
- 第二章 公文縮略語知識挖掘基礎(chǔ)研究38-79
- 2.1 公文縮略語概說38-42
- 2.1.1 公文縮略語的界定38
- 2.1.2 公文縮略語與原型詞語的關(guān)系38-40
- 2.1.3 公文縮略語產(chǎn)生的原因40-42
- 2.2 靜態(tài)系統(tǒng)縮略語知識歸納42-79
- 2.2.1 典內(nèi)縮略語的基本數(shù)據(jù)42-45
- 2.2.2 典內(nèi)縮略語的屬性分析45-77
- 2.2.3 小結(jié)77-79
- 第三章 政教類公文抽樣語料庫的研制79-97
- 3.1 研制目的79
- 3.2 抽樣原則與方法79-81
- 3.2.1 抽樣原則79-80
- 3.2.2 抽樣方法80-81
- 3.3 語料庫規(guī)模81
- 3.4 語料加工81-85
- 3.4.1 生語料初加工81-82
- 3.4.2 語料庫分詞標注82-85
- 3.5 人工校對85-97
- 3.5.1 縮略語誤切分的校對85-90
- 3.5.2 公文術(shù)語誤切分的校對90-92
- 3.5.3 專有名詞誤切分的校對92-97
- 第四章 基于語料庫的公文縮略語定量分析97-117
- 4.1 語料庫詞語基本數(shù)據(jù)97-99
- 4.2 語料庫所見縮略語的分布99-111
- 4.2.1 縮略方式分布99-102
- 4.2.2 詞長分布102-104
- 4.2.3 功能屬性分布104-107
- 4.2.4 結(jié)構(gòu)方式分布107-111
- 4.3 “詞化”縮略語的分布111-115
- 4.4 小結(jié)115-117
- 第五章 公文縮略語的自動識別研究117-154
- 5.1 縮略語自動識別研究現(xiàn)狀117-119
- 5.2 關(guān)于二元相關(guān)性119-122
- 5.2.1 相關(guān)性理論119-120
- 5.2.2 相關(guān)性的意義120-121
- 5.2.3 相關(guān)性的獲得121-122
- 5.3 公文語料庫詞語相關(guān)性抽樣統(tǒng)計122-126
- 5.3.1 二元相關(guān)性組合頻級分布123-125
- 5.3.2 二元相關(guān)性組合詞長分布125-126
- 5.4 雙音節(jié)縮略語的識別126-137
- 5.4.1 “1+1”式組合縮略語識別126-133
- 5.4.2 “名詞+名詞”模式組合縮略語識別133-135
- 5.4.3 “動詞+動詞”模式組合縮略語識別135-137
- 5.5 “1+2”式相關(guān)性組合縮略語的識別137-141
- 5.5.1 “1+2”式相關(guān)性高頻組合縮略語識別137-139
- 5.5.2 “1+2”式相關(guān)性中低頻組合縮略語識別139-141
- 5.6 “2+1”式相關(guān)性組合縮略語的識別141-145
- 5.6.1 “2+1”式相關(guān)性高頻組合縮略語識別141-143
- 5.6.2 “2+1”式相關(guān)性中低頻組合縮略語識別143-145
- 5.7 “2+2”式相關(guān)性組合縮略語識別145-147
- 5.8 數(shù)字統(tǒng)括式縮略語的識別147-152
- 5.8.1 “數(shù)詞+名詞”模式組合的縮略語識別147-150
- 5.8.2 “數(shù)詞+動詞”模式組合的縮略語識別150-152
- 5.9 小結(jié)152-154
- 第六章 結(jié)語154-157
- 6.1 基于相關(guān)性理論進行公文縮略語知識挖掘可行有效154-155
- 6.2 公文縮略語動態(tài)詞表的優(yōu)化155-156
- 6.3 本研究的不足156-157
- 附錄1:政教類公文高頻縮略語例樣表157-164
- 附錄2:公文主題詞表縮略語頻度統(tǒng)計表164-167
- 附錄3:公文語料庫準縮略語例樣表167-169
- 參考文獻169-172
- 致謝172-174
- 攻讀博士學(xué)位期間發(fā)表的學(xué)術(shù)論文174-175
- 學(xué)位論文評閱及答辯情況表175
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 宋惠梅;證書證件類屬不屬于公文?[J];秘書之友;2002年05期
2 高潔;從清代公文傳遞看今之公文運轉(zhuǎn)[J];秘書;2002年10期
3 方應(yīng)天;金融機構(gòu)公文處理與寫作問題研究[J];河南金融管理干部學(xué)院學(xué)報;2003年02期
4 王東海,王麗英;公文術(shù)語的義值分析[J];煙臺師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版);2005年01期
5 王曉莉;;公文、志書文風(fēng)共性淺析[J];檔案學(xué)研究;2007年03期
6 任雪浩;李偉華;竇莉;韓曉冬;;現(xiàn)代公文標題寫作規(guī)范及其病誤分析[J];天津工程師范學(xué)院學(xué)報;2008年03期
7 岳海翔;;我國當(dāng)代公文法規(guī)建設(shè)的重大變革——學(xué)習(xí)新的《黨政機關(guān)公文處理工作條例》[J];寫作;2012年23期
8 聶學(xué)祥;;淺談公文撰寫工作應(yīng)把握的幾個問題[J];應(yīng)用寫作;2012年04期
9 張國浩;;論公文價值的標準[J];寫作;2013年17期
10 余戎;羅清萍;;從公文處理新《條例》看公文改革方向[J];應(yīng)用寫作;2013年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張林華;;求實、精簡、高效——提高公文處理水平的原則[A];中國檔案學(xué)會第六次全國檔案學(xué)術(shù)討論會論文集[C];2002年
2 李秀玲;;貫徹落實“四講”工作思路 全面提升公文處理工作質(zhì)量——對站段公文處理有關(guān)問題的分析與建議[A];甘肅省鐵道學(xué)會文秘檔委員會2006年度綜合學(xué)術(shù)研討會論文集[C];2006年
3 王啟和;;公文特征論要[A];中國當(dāng)代秘書群星文選[C];1999年
4 王書生;;公文校核漫談[A];中國當(dāng)代秘書群星文選[C];1999年
5 王志新;;公文制發(fā)中的“盲點”問題[A];中國當(dāng)代秘書群星文選[C];1999年
6 黃新榮;;公文主題詞標引病例淺析[A];中國當(dāng)代秘書群星文選[C];1999年
7 白文坤;;軍隊機關(guān)公文處理的準則——學(xué)習(xí)《中國人民解放軍機關(guān)公文處理條例》的體會[A];中國當(dāng)代秘書群星文選[C];1999年
8 孫艷;;關(guān)于公文電子化推行過程中所面臨的問題及對策[A];甘肅省鐵道學(xué)會文秘檔委員會2006年度綜合學(xué)術(shù)研討會論文集[C];2006年
9 高飛衛(wèi);;曹操公文特色淺論——兼評曹操對文秘制度的改革[A];中國當(dāng)代秘書群星文選[C];1999年
10 芮國強;;元明清的公文稽察匯奏制度概述[A];中國當(dāng)代秘書群星文選[C];1999年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 喻非卿;高度重視公文處理工作[N];中國文化報;2007年
2 記者 李宇;公文處理有望提速[N];秦皇島日報;2006年
3 阮煜君;如何更換公文處理服務(wù)器[N];中國稅務(wù)報;2008年
4 記者 楊艷玲;省委辦公廳滇西片區(qū)公文處理業(yè)務(wù)培訓(xùn)在大理開班[N];大理日報(漢);2009年
5 潘靜 李揚 胡明明;我市舉辦行政機關(guān)公文處理培訓(xùn)班[N];蚌埠日報;2010年
6 本報記者 陳東升 本報實習(xí)生 王春;微博公文遭遇三大質(zhì)疑[N];法制日報;2011年
7 馬繼紅 曾嶸欣;全省公文處理工作座談會在貴陽召開[N];貴州日報;2011年
8 霍靜;中航二集團舉辦公文展[N];中國航空報;2005年
9 記者 王詩_g;民航各單位要提高 公文處理能力[N];中國民航報;2012年
10 李雪穎;總局貫徹落實《黨政機關(guān)公文處理工作條例》[N];中國體育報;2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 沈載權(quán);朝鮮與明清公文比較研究[D];南京師范大學(xué);2007年
2 趙娟廷;漢韓公文語體對比研究[D];復(fù)旦大學(xué);2003年
3 陳龍;明代公文變革論[D];南京師范大學(xué);2007年
4 陳民科;人力資源公文筐測驗與效度驗證:基于內(nèi)隱評價策略的思路[D];浙江大學(xué);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張樂;英漢公文比較與分析[D];長春理工大學(xué);2008年
2 楊劍;建國以來我國公文制度研究[D];安徽大學(xué);2010年
3 柴俊星;兩岸四地公文、公文語體的現(xiàn)狀比較及未來走向[D];華中師范大學(xué);2002年
4 安源;黨政機關(guān)公文處理工作研究[D];吉林大學(xué);2007年
5 李莉;論先秦公文的原生意義[D];南京師范大學(xué);2011年
6 姜麗艷;俄漢公文事務(wù)語體的語言特點及翻譯策略[D];黑龍江大學(xué);2009年
7 張帆;歷時性與共時性境遇下的公文擬稿研究[D];長春理工大學(xué);2010年
8 李柯;建國以來公文與政治語境關(guān)系的研究[D];四川師范大學(xué);2010年
9 程英;中國公文工作制度史研究[D];四川大學(xué);2006年
10 萬志宏;情境模擬公文筐測試應(yīng)用模式的探究[D];蘇州大學(xué);2003年
,本文編號:847181
本文鏈接:http://sikaile.net/shoufeilunwen/rwkxbs/847181.html