天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于自然語言處理及機(jī)器學(xué)習(xí)的文本分類研究

發(fā)布時(shí)間:2021-08-13 10:47
  伴隨著信息技術(shù)的不斷發(fā)展,電子文本信息日益增多。為方便用戶可以快速、精準(zhǔn)地從文本中找到用戶所需求的信息,并且可以使用什么方法有效地組織和管理這些文本信息將成為信息技術(shù)面臨的一大挑戰(zhàn)。文本自動(dòng)分類作為處理海量文本信息的關(guān)鍵技術(shù),可以在很大程度上解決信息復(fù)雜混亂的問題。把相關(guān)信息資源歸類,這樣既方便用戶準(zhǔn)確地搜索到所需的信息,又能實(shí)現(xiàn)數(shù)據(jù)的有效管理。本文從提高文本自動(dòng)分類準(zhǔn)確率的角度出發(fā),主要對(duì)文本自動(dòng)分類及相關(guān)技術(shù)進(jìn)行研究分析,從自然語言處理到分類的整個(gè)過程中,每一環(huán)節(jié)都緊密相連,其中最重要的是在自然語言處理過程中,要保證分詞的準(zhǔn)確性,才能保證后續(xù)分類的正確率。自然語言處理過程中,基于匹配詞庫考慮,本文以《鐵路工程地質(zhì)勘察規(guī)范》(TB1002-2007)為訓(xùn)練標(biāo)準(zhǔn),首先對(duì)文本文檔進(jìn)行自然語言處理,由于分詞的局限性及詞的歧義識(shí)別問題,在構(gòu)建語料庫的過程中,計(jì)算機(jī)與人工結(jié)合進(jìn)行分詞,最終的分詞結(jié)果選擇詞頻大于某個(gè)預(yù)定閾值的詞條作為最終的地質(zhì)勘探語料庫。為避免同一地勘專業(yè)詞條被分開,在研究地勘文本自動(dòng)分類的過程中,分詞時(shí)把該語料加入Python庫內(nèi)進(jìn)行字符串匹配;谏鲜鲎匀徽Z言處理過程的描述... 

【文章來源】:云南大學(xué)云南省 211工程院校

【文章頁數(shù)】:56 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于自然語言處理及機(jī)器學(xué)習(xí)的文本分類研究


語料庫詞條的位置—詞頻圖

基于自然語言處理及機(jī)器學(xué)習(xí)的文本分類研究


工程地質(zhì)勘察報(bào)告詞云圖

基于自然語言處理及機(jī)器學(xué)習(xí)的文本分類研究


工程地質(zhì)說明書的詞云圖

【參考文獻(xiàn)】:
期刊論文
[1]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國.  數(shù)據(jù)采集與處理. 2014(01)
[2]基于隱馬爾科夫模型的RCS識(shí)別方法研究[J]. 郭武,朱明明,楊紅兵.  現(xiàn)代雷達(dá). 2013(03)
[3]支持向量機(jī)在文本分類中的應(yīng)用[J]. 段瑩.  計(jì)算機(jī)與數(shù)字工程. 2012(07)
[4]中文分詞算法在自然語言處理技術(shù)中的研究及應(yīng)用[J]. 吳巧玲.  信息與電腦(理論版). 2011(12)
[5]云計(jì)算環(huán)境下樸素貝葉斯文本分類算法的實(shí)現(xiàn)[J]. 江小平,李成華,向文,張新訪.  計(jì)算機(jī)應(yīng)用. 2011(09)
[6]文本分類特征降維研究綜述[J]. 奉國和,鄭偉.  圖書情報(bào)工作. 2011(09)
[7]國內(nèi)外文本分類研究計(jì)量分析與綜述[J]. 胡澤文,王效岳,白如江.  圖書情報(bào)工作. 2011(06)
[8]基于詞關(guān)聯(lián)度的文本檢索系統(tǒng)[J]. 丁立愷,夏勇明,錢松榮.  微型電腦應(yīng)用. 2011(03)
[9]中文分詞中的歧義識(shí)別處理策略[J]. 魏莎莎,熊海靈.  微計(jì)算機(jī)信息. 2010(30)
[10]基于N元語法的漢語自動(dòng)分詞系統(tǒng)研究[J]. 石佳,蔡皖東.  微電子學(xué)與計(jì)算機(jī). 2009(07)

碩士論文
[1]面向中文地址的分詞引擎設(shè)計(jì)及實(shí)現(xiàn)[D]. 陳建英.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2015
[2]基于向量空間的文本聚類方法與實(shí)現(xiàn)[D]. 鄔啟為.北京交通大學(xué) 2014
[3]中文文本挖掘基本理論與應(yīng)用[D]. 康東.蘇州大學(xué) 2014
[4]文本分類中的特征降維方法研究[D]. 萬斌候.重慶大學(xué) 2012
[5]一種HMM的學(xué)習(xí)算法[D]. 張路.西南交通大學(xué) 2010
[6]中文文本自動(dòng)分類算法研究[D]. 王香港.上海交通大學(xué) 2008
[7]數(shù)據(jù)挖掘系統(tǒng)及其應(yīng)用研究——用關(guān)聯(lián)特征提高樸素貝葉斯文本分類器的性能[D]. 張利軍.西北工業(yè)大學(xué) 2003



本文編號(hào):3340287

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3340287.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9146c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com