面向?qū)W科的新詞匯抽取方法及應(yīng)用研究
發(fā)布時(shí)間:2021-04-12 14:37
近年來,隨著學(xué)科的蓬勃發(fā)展,各個(gè)領(lǐng)域的新詞匯大量涌現(xiàn),這些具有專業(yè)特點(diǎn)的新詞匯充分體現(xiàn)和負(fù)載了一個(gè)學(xué)科領(lǐng)域的核心知識(shí)和專業(yè)價(jià)值,它們的變化在一定程度上反映了一個(gè)學(xué)科領(lǐng)域的發(fā)展變化。專業(yè)新詞匯的提取對(duì)于信息檢索、數(shù)據(jù)挖掘、自動(dòng)翻譯等語言信息處理研究以及了解、把握一個(gè)學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀、未來趨向等具有重要的理論和現(xiàn)實(shí)意義。在新詞發(fā)現(xiàn)領(lǐng)域,當(dāng)前主要傾向于采用基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法來進(jìn)行新詞發(fā)現(xiàn)。研究的困難在于現(xiàn)代漢語構(gòu)詞法的靈活多樣,導(dǎo)致很難找到一種通用的方法來發(fā)現(xiàn)各個(gè)領(lǐng)域的新詞匯,并且現(xiàn)有方法的準(zhǔn)確率和召回率都不高,性能還有待優(yōu)化。本文提出一種貪婪的原子詞匯構(gòu)詞法,用于教育技術(shù)學(xué)科新詞匯的發(fā)現(xiàn),為發(fā)現(xiàn)該領(lǐng)域的新詞匯提供了一種新的方法。本文設(shè)計(jì)了一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯發(fā)現(xiàn)方法,該方法的實(shí)現(xiàn)部分包括文本預(yù)處理、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)、基于規(guī)則庫的詞串過濾、重復(fù)子串篩選、新專業(yè)詞匯提煉和結(jié)果排序。對(duì)教育技術(shù)學(xué)核心學(xué)術(shù)期刊《電化教育研究》中的100篇論文用此方法進(jìn)行分析,首先抽取出文中用“”、‘’、()、《》等特殊符號(hào)標(biāo)志的長度不大于10的詞串,形成候選新詞表1;然后...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及存在問題
1.3 研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 新詞發(fā)現(xiàn)基礎(chǔ)
2.1 新詞發(fā)現(xiàn)的理論基礎(chǔ)
2.1.1 新詞的定義
2.1.2 新詞的來源
2.1.3 對(duì)新詞進(jìn)行評(píng)價(jià)的方法
2.1.4 新詞發(fā)現(xiàn)研究的困難
2.2 新詞發(fā)現(xiàn)的技術(shù)基礎(chǔ)
2.2.1 基于統(tǒng)計(jì)的方法
2.2.2 基于規(guī)則的方法
2.2.3 統(tǒng)計(jì)和規(guī)則相結(jié)合的方法
2.3 小結(jié)
3 貪婪的原子詞匯構(gòu)詞法研究
3.1 關(guān)于構(gòu)詞法的相關(guān)研究
3.2 貪婪的原子詞匯構(gòu)詞法
3.2.1 算法思想
3.2.2 算法原理分析
3.2.3 算法流程圖
3.3 垃圾詞串過濾
3.3.1 垃圾詞串過濾的必要性
3.3.2 詞串過濾的方法
3.3.3 過濾規(guī)則庫的制定
3.4 算法性能分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)來源
3.4.2 實(shí)驗(yàn)結(jié)果分析
3.5 小結(jié)
4 面向?qū)W科的新詞發(fā)現(xiàn)系統(tǒng)的分析與設(shè)計(jì)
4.1 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)
4.1.1 研究方案介紹
4.1.2 方案實(shí)施流程
4.2 系統(tǒng)功能模塊設(shè)計(jì)
4.2.1 文本預(yù)處理
4.2.2 新詞串統(tǒng)計(jì)
4.2.3 垃圾詞串的過濾
4.2.4 結(jié)果排序與輸出
4.3 小結(jié)
5 面向?qū)W科的新詞發(fā)現(xiàn)系統(tǒng)的實(shí)現(xiàn)和應(yīng)用
5.1 系統(tǒng)開發(fā)環(huán)境
5.2 實(shí)驗(yàn)功能模塊實(shí)現(xiàn)
5.2.1 文本預(yù)處理
5.2.2 新詞串統(tǒng)計(jì)
5.2.3 垃圾詞串過濾
5.2.4 結(jié)果排序與輸出
5.3 系統(tǒng)應(yīng)用分析
5.4 小結(jié)
6 總結(jié)與展望
6.1 研究總結(jié)
6.2 問題與展望
參考文獻(xiàn)
項(xiàng)目資助及發(fā)表論文情況
致謝
【參考文獻(xiàn)】:
期刊論文
[1]中文新詞識(shí)別技術(shù)綜述[J]. 張海軍,史樹敏,朱朝勇,黃河燕. 計(jì)算機(jī)科學(xué). 2010(03)
[2]基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J]. 韓艷,林煜熙,姚建民. 中文信息學(xué)報(bào). 2009(03)
[3]針對(duì)特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 王文榮,喬曉東,朱禮軍. 現(xiàn)代圖書情報(bào)技術(shù). 2008(02)
[4]基于詞表和N-gram算法的新詞識(shí)別實(shí)驗(yàn)[J]. 曹艷,杜慧平,劉竟,侯漢清. 情報(bào)科學(xué). 2007(11)
[5]基于多特征的自適應(yīng)新詞識(shí)別[J]. 羅智勇,宋柔. 北京工業(yè)大學(xué)學(xué)報(bào). 2007(07)
[6]基于統(tǒng)計(jì)和規(guī)則的未登錄詞識(shí)別方法研究[J]. 周蕾,朱巧明. 計(jì)算機(jī)工程. 2007(08)
[7]基于標(biāo)引信息的網(wǎng)絡(luò)新概念發(fā)現(xiàn)算法[J]. 夏霙,劉功申,李翔. 微型電腦應(yīng)用. 2007(01)
[8]基于質(zhì)子串分解的中文術(shù)語自動(dòng)抽取[J]. 何婷婷,張勇. 計(jì)算機(jī)工程. 2006(23)
[9]基于數(shù)據(jù)挖掘的新詞發(fā)現(xiàn)[J]. 王立希,王建東,汪靜. 計(jì)算機(jī)應(yīng)用研究. 2006(12)
[10]一種快速獲取領(lǐng)域新詞語的新方法[J]. 劉華. 中文信息學(xué)報(bào). 2006(05)
碩士論文
[1]漢語新詞語發(fā)現(xiàn)及其詞性標(biāo)注方法研究[D]. 楊輝.復(fù)旦大學(xué) 2008
[2]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學(xué) 2008
[3]中文名實(shí)體識(shí)別與新詞發(fā)現(xiàn)技術(shù)研究[D]. 劉利剛.哈爾濱工業(yè)大學(xué) 2007
[4]新詞:論定中式復(fù)合名詞的構(gòu)詞模式與構(gòu)造過程[D]. 胡睿.東北師范大學(xué) 2006
本文編號(hào):3133468
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及存在問題
1.3 研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 新詞發(fā)現(xiàn)基礎(chǔ)
2.1 新詞發(fā)現(xiàn)的理論基礎(chǔ)
2.1.1 新詞的定義
2.1.2 新詞的來源
2.1.3 對(duì)新詞進(jìn)行評(píng)價(jià)的方法
2.1.4 新詞發(fā)現(xiàn)研究的困難
2.2 新詞發(fā)現(xiàn)的技術(shù)基礎(chǔ)
2.2.1 基于統(tǒng)計(jì)的方法
2.2.2 基于規(guī)則的方法
2.2.3 統(tǒng)計(jì)和規(guī)則相結(jié)合的方法
2.3 小結(jié)
3 貪婪的原子詞匯構(gòu)詞法研究
3.1 關(guān)于構(gòu)詞法的相關(guān)研究
3.2 貪婪的原子詞匯構(gòu)詞法
3.2.1 算法思想
3.2.2 算法原理分析
3.2.3 算法流程圖
3.3 垃圾詞串過濾
3.3.1 垃圾詞串過濾的必要性
3.3.2 詞串過濾的方法
3.3.3 過濾規(guī)則庫的制定
3.4 算法性能分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)來源
3.4.2 實(shí)驗(yàn)結(jié)果分析
3.5 小結(jié)
4 面向?qū)W科的新詞發(fā)現(xiàn)系統(tǒng)的分析與設(shè)計(jì)
4.1 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)
4.1.1 研究方案介紹
4.1.2 方案實(shí)施流程
4.2 系統(tǒng)功能模塊設(shè)計(jì)
4.2.1 文本預(yù)處理
4.2.2 新詞串統(tǒng)計(jì)
4.2.3 垃圾詞串的過濾
4.2.4 結(jié)果排序與輸出
4.3 小結(jié)
5 面向?qū)W科的新詞發(fā)現(xiàn)系統(tǒng)的實(shí)現(xiàn)和應(yīng)用
5.1 系統(tǒng)開發(fā)環(huán)境
5.2 實(shí)驗(yàn)功能模塊實(shí)現(xiàn)
5.2.1 文本預(yù)處理
5.2.2 新詞串統(tǒng)計(jì)
5.2.3 垃圾詞串過濾
5.2.4 結(jié)果排序與輸出
5.3 系統(tǒng)應(yīng)用分析
5.4 小結(jié)
6 總結(jié)與展望
6.1 研究總結(jié)
6.2 問題與展望
參考文獻(xiàn)
項(xiàng)目資助及發(fā)表論文情況
致謝
【參考文獻(xiàn)】:
期刊論文
[1]中文新詞識(shí)別技術(shù)綜述[J]. 張海軍,史樹敏,朱朝勇,黃河燕. 計(jì)算機(jī)科學(xué). 2010(03)
[2]基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J]. 韓艷,林煜熙,姚建民. 中文信息學(xué)報(bào). 2009(03)
[3]針對(duì)特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 王文榮,喬曉東,朱禮軍. 現(xiàn)代圖書情報(bào)技術(shù). 2008(02)
[4]基于詞表和N-gram算法的新詞識(shí)別實(shí)驗(yàn)[J]. 曹艷,杜慧平,劉竟,侯漢清. 情報(bào)科學(xué). 2007(11)
[5]基于多特征的自適應(yīng)新詞識(shí)別[J]. 羅智勇,宋柔. 北京工業(yè)大學(xué)學(xué)報(bào). 2007(07)
[6]基于統(tǒng)計(jì)和規(guī)則的未登錄詞識(shí)別方法研究[J]. 周蕾,朱巧明. 計(jì)算機(jī)工程. 2007(08)
[7]基于標(biāo)引信息的網(wǎng)絡(luò)新概念發(fā)現(xiàn)算法[J]. 夏霙,劉功申,李翔. 微型電腦應(yīng)用. 2007(01)
[8]基于質(zhì)子串分解的中文術(shù)語自動(dòng)抽取[J]. 何婷婷,張勇. 計(jì)算機(jī)工程. 2006(23)
[9]基于數(shù)據(jù)挖掘的新詞發(fā)現(xiàn)[J]. 王立希,王建東,汪靜. 計(jì)算機(jī)應(yīng)用研究. 2006(12)
[10]一種快速獲取領(lǐng)域新詞語的新方法[J]. 劉華. 中文信息學(xué)報(bào). 2006(05)
碩士論文
[1]漢語新詞語發(fā)現(xiàn)及其詞性標(biāo)注方法研究[D]. 楊輝.復(fù)旦大學(xué) 2008
[2]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學(xué) 2008
[3]中文名實(shí)體識(shí)別與新詞發(fā)現(xiàn)技術(shù)研究[D]. 劉利剛.哈爾濱工業(yè)大學(xué) 2007
[4]新詞:論定中式復(fù)合名詞的構(gòu)詞模式與構(gòu)造過程[D]. 胡睿.東北師范大學(xué) 2006
本文編號(hào):3133468
本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/3133468.html
最近更新
教材專著