基于無監(jiān)督學(xué)習(xí)的思想政治教育分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-01-11 06:49
中文分詞作為中文自然語言處理中的一項(xiàng)重要技術(shù),其結(jié)果的優(yōu)劣將直接影響到后續(xù)文本處理的效果,而在思想政治教育領(lǐng)域中,其領(lǐng)域詞匯具有新詞誕生速度快、覆蓋面廣、詞匯量大等特點(diǎn),這給領(lǐng)域內(nèi)的分詞以及后續(xù)工作造成了極大困難。針對以上問題,本文設(shè)計(jì)并實(shí)現(xiàn)了思想政治教育分詞系統(tǒng),本系統(tǒng)基于領(lǐng)域文獻(xiàn)構(gòu)建語料庫,基于統(tǒng)計(jì)的思想訓(xùn)練字級語言模型,使用維特比算法獲取初步中文分詞結(jié)果,最終通過基于詞頻偏差的中文分詞優(yōu)化算法優(yōu)化初步分詞結(jié)果,系統(tǒng)針對分詞結(jié)果為用戶提供包括提取關(guān)鍵詞、詞頻統(tǒng)計(jì)、繪制詞云圖等功能,從而實(shí)現(xiàn)對領(lǐng)域文獻(xiàn)的中文分詞以及文本分析。論文進(jìn)行的主要工作和取得的相關(guān)成果如下:(1)論文研究了中文分詞相關(guān)算法,參考傳統(tǒng)詞級N-gram語言模型訓(xùn)練流程,訓(xùn)練獲得字級N-gram語言模型,基于語言模型使用維特比算法尋找文本最優(yōu)分詞路徑作為初步分詞結(jié)果,考慮到專業(yè)詞匯較長的特征,加入基于詞頻偏差的分詞優(yōu)化算法對初步分詞結(jié)果進(jìn)行重組以進(jìn)一步提升分詞準(zhǔn)確率,最終輸出最優(yōu)分詞結(jié)果。(2)在構(gòu)建語料庫的過程中考慮到包括專業(yè)詞匯、熱點(diǎn)詞匯以及常用詞匯三個(gè)方面詞匯的覆蓋程度,利用爬蟲等手段獲取三個(gè)方面的不同的領(lǐng)域文...
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 中文分詞研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 思想政治教育分詞系統(tǒng)需求分析
2.1 系統(tǒng)需求概述
2.2 需求分析
2.2.1 用戶功能性需求分析
2.2.2 系統(tǒng)功能性需求分析
2.2.3 非功能性需求分析
2.3 系統(tǒng)可行性分析
2.3.1 技術(shù)可行性分析
2.3.2 經(jīng)濟(jì)可行性分析
2.4 本章小結(jié)
第三章 思想政治教育分詞系統(tǒng)整體設(shè)計(jì)
3.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
3.2 系統(tǒng)模塊設(shè)計(jì)
3.2.1 語料訓(xùn)練模塊
3.2.2 中文分詞模塊
3.2.3 特征提取模塊
3.2.4 系統(tǒng)流程圖
3.3 數(shù)據(jù)庫設(shè)計(jì)
3.3.1 E-R圖
3.3.2 數(shù)據(jù)庫表設(shè)計(jì)
3.4 系統(tǒng)設(shè)計(jì)目標(biāo)及要求
3.5 本章小結(jié)
第四章 思想政治教育中文分詞算法設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 中文分詞方法研究
4.2.1 語料庫的構(gòu)建
4.2.2 字級N-gram語言模型
4.2.3 訓(xùn)練語言模型
4.2.4 計(jì)算分詞路徑
4.3 中文分詞優(yōu)化方法研究
4.3.1 詞頻偏差與排序詞頻偏差
4.3.2 基于詞頻偏差的詞組合并算法
4.4 算法測試
4.4.1 實(shí)驗(yàn)語料
4.4.2 語言模型對比測試
4.4.3 算法準(zhǔn)確率測試
4.4.4 優(yōu)化算法測試
4.5 本章小結(jié)
第五章 思想政治教育分詞系統(tǒng)整體實(shí)現(xiàn)
5.1 引言
5.2 系統(tǒng)實(shí)現(xiàn)
5.2.1 系統(tǒng)關(guān)鍵功能
5.2.2 界面布局與主頁導(dǎo)讀
5.2.3 語料訓(xùn)練模塊
5.2.4 中文分詞模塊
5.2.5 特征提取模塊
5.3 系統(tǒng)測試
5.3.1 系統(tǒng)安全測試
5.3.2 系統(tǒng)功能測試
5.3.3 系統(tǒng)性能測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
附錄
【參考文獻(xiàn)】:
期刊論文
[1]無監(jiān)督分詞算法在新詞識(shí)別中的應(yīng)用[J]. 姜濤,陸陽,張潔,洪建. 小型微型計(jì)算機(jī)系統(tǒng). 2020(04)
[2]基于神經(jīng)網(wǎng)絡(luò)的中文分詞技術(shù)研究[J]. 馬學(xué)海. 科學(xué)技術(shù)創(chuàng)新. 2019(32)
[3]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[4]基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[5]應(yīng)用Jieba和Wordcloud庫的詞云設(shè)計(jì)與優(yōu)化[J]. 徐博龍. 福建電腦. 2019(06)
[6]面向?qū)嶓w標(biāo)注的軍事語料庫建設(shè)[J]. 周彬彬,張宏軍,張睿,馮蘊(yùn)天,徐有為. 計(jì)算機(jī)科學(xué). 2019(S1)
[7]基于規(guī)則和N-Gram算法的新詞識(shí)別研究[J]. 姜如霞,黃水源,段隆振,羅麗娟. 現(xiàn)代電子技術(shù). 2019(04)
[8]基于統(tǒng)計(jì)的中文分詞算法研究[J]. 鄒佳倫,文漢云,王同喜. 電腦知識(shí)與技術(shù). 2019(04)
[9]自然語言處理發(fā)展與應(yīng)用概述[J]. 高源. 中國新通信. 2019(02)
[10]基于字簇的多模型中文分詞方法研究[J]. 李對紅,王裴巖,張桂平,張少陽. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
博士論文
[1]基于n-gram的中文文本復(fù)制檢測研究[D]. 張偉.湖南大學(xué) 2014
[2]中文信息處理中若干關(guān)鍵技術(shù)的研究[D]. 王建會(huì).復(fù)旦大學(xué) 2004
碩士論文
[1]基于深度學(xué)習(xí)的中文分詞和關(guān)鍵詞抽取模型研究[D]. 黃丹丹.北京郵電大學(xué) 2019
[2]基于條件隨機(jī)場的中文分詞技術(shù)的研究與實(shí)現(xiàn)[D]. 徐曉芳.南京郵電大學(xué) 2018
[3]基于統(tǒng)計(jì)和規(guī)則的中文地址分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 袁向鐸.東南大學(xué) 2018
[4]面向領(lǐng)域文獻(xiàn)的中文分詞方法研究[D]. 孫浩浩.山東科技大學(xué) 2018
[5]基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D]. 周祺.哈爾濱工業(yè)大學(xué) 2015
[6]基于統(tǒng)計(jì)和語義信息的中文分詞算法研究[D]. 李良潔.青島科技大學(xué) 2015
[7]基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應(yīng)用[D]. 王天怡.吉林大學(xué) 2012
[8]基于機(jī)器學(xué)習(xí)的中文分詞的研究與實(shí)現(xiàn)[D]. 崔明明.沈陽工業(yè)大學(xué) 2009
本文編號(hào):3729604
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 中文分詞研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 思想政治教育分詞系統(tǒng)需求分析
2.1 系統(tǒng)需求概述
2.2 需求分析
2.2.1 用戶功能性需求分析
2.2.2 系統(tǒng)功能性需求分析
2.2.3 非功能性需求分析
2.3 系統(tǒng)可行性分析
2.3.1 技術(shù)可行性分析
2.3.2 經(jīng)濟(jì)可行性分析
2.4 本章小結(jié)
第三章 思想政治教育分詞系統(tǒng)整體設(shè)計(jì)
3.1 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
3.2 系統(tǒng)模塊設(shè)計(jì)
3.2.1 語料訓(xùn)練模塊
3.2.2 中文分詞模塊
3.2.3 特征提取模塊
3.2.4 系統(tǒng)流程圖
3.3 數(shù)據(jù)庫設(shè)計(jì)
3.3.1 E-R圖
3.3.2 數(shù)據(jù)庫表設(shè)計(jì)
3.4 系統(tǒng)設(shè)計(jì)目標(biāo)及要求
3.5 本章小結(jié)
第四章 思想政治教育中文分詞算法設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 中文分詞方法研究
4.2.1 語料庫的構(gòu)建
4.2.2 字級N-gram語言模型
4.2.3 訓(xùn)練語言模型
4.2.4 計(jì)算分詞路徑
4.3 中文分詞優(yōu)化方法研究
4.3.1 詞頻偏差與排序詞頻偏差
4.3.2 基于詞頻偏差的詞組合并算法
4.4 算法測試
4.4.1 實(shí)驗(yàn)語料
4.4.2 語言模型對比測試
4.4.3 算法準(zhǔn)確率測試
4.4.4 優(yōu)化算法測試
4.5 本章小結(jié)
第五章 思想政治教育分詞系統(tǒng)整體實(shí)現(xiàn)
5.1 引言
5.2 系統(tǒng)實(shí)現(xiàn)
5.2.1 系統(tǒng)關(guān)鍵功能
5.2.2 界面布局與主頁導(dǎo)讀
5.2.3 語料訓(xùn)練模塊
5.2.4 中文分詞模塊
5.2.5 特征提取模塊
5.3 系統(tǒng)測試
5.3.1 系統(tǒng)安全測試
5.3.2 系統(tǒng)功能測試
5.3.3 系統(tǒng)性能測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
附錄
【參考文獻(xiàn)】:
期刊論文
[1]無監(jiān)督分詞算法在新詞識(shí)別中的應(yīng)用[J]. 姜濤,陸陽,張潔,洪建. 小型微型計(jì)算機(jī)系統(tǒng). 2020(04)
[2]基于神經(jīng)網(wǎng)絡(luò)的中文分詞技術(shù)研究[J]. 馬學(xué)海. 科學(xué)技術(shù)創(chuàng)新. 2019(32)
[3]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[4]基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[5]應(yīng)用Jieba和Wordcloud庫的詞云設(shè)計(jì)與優(yōu)化[J]. 徐博龍. 福建電腦. 2019(06)
[6]面向?qū)嶓w標(biāo)注的軍事語料庫建設(shè)[J]. 周彬彬,張宏軍,張睿,馮蘊(yùn)天,徐有為. 計(jì)算機(jī)科學(xué). 2019(S1)
[7]基于規(guī)則和N-Gram算法的新詞識(shí)別研究[J]. 姜如霞,黃水源,段隆振,羅麗娟. 現(xiàn)代電子技術(shù). 2019(04)
[8]基于統(tǒng)計(jì)的中文分詞算法研究[J]. 鄒佳倫,文漢云,王同喜. 電腦知識(shí)與技術(shù). 2019(04)
[9]自然語言處理發(fā)展與應(yīng)用概述[J]. 高源. 中國新通信. 2019(02)
[10]基于字簇的多模型中文分詞方法研究[J]. 李對紅,王裴巖,張桂平,張少陽. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
博士論文
[1]基于n-gram的中文文本復(fù)制檢測研究[D]. 張偉.湖南大學(xué) 2014
[2]中文信息處理中若干關(guān)鍵技術(shù)的研究[D]. 王建會(huì).復(fù)旦大學(xué) 2004
碩士論文
[1]基于深度學(xué)習(xí)的中文分詞和關(guān)鍵詞抽取模型研究[D]. 黃丹丹.北京郵電大學(xué) 2019
[2]基于條件隨機(jī)場的中文分詞技術(shù)的研究與實(shí)現(xiàn)[D]. 徐曉芳.南京郵電大學(xué) 2018
[3]基于統(tǒng)計(jì)和規(guī)則的中文地址分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 袁向鐸.東南大學(xué) 2018
[4]面向領(lǐng)域文獻(xiàn)的中文分詞方法研究[D]. 孫浩浩.山東科技大學(xué) 2018
[5]基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D]. 周祺.哈爾濱工業(yè)大學(xué) 2015
[6]基于統(tǒng)計(jì)和語義信息的中文分詞算法研究[D]. 李良潔.青島科技大學(xué) 2015
[7]基于詞典的中文分詞算法研究及其在Nutch系統(tǒng)中的應(yīng)用[D]. 王天怡.吉林大學(xué) 2012
[8]基于機(jī)器學(xué)習(xí)的中文分詞的研究與實(shí)現(xiàn)[D]. 崔明明.沈陽工業(yè)大學(xué) 2009
本文編號(hào):3729604
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3729604.html
最近更新
教材專著