基于機(jī)器學(xué)習(xí)的勘探門戶新聞自動(dòng)分類研究

發(fā)布時(shí)間：2021-08-30 11:24

　　隨著勘探門戶新聞數(shù)據(jù)量的提升,新聞內(nèi)容的復(fù)雜度增加,導(dǎo)致傳統(tǒng)人工進(jìn)行新聞分類的的方法效率越來(lái)越低,并且人工進(jìn)行新聞分類很容易受到主觀因素的影響,使得分類的準(zhǔn)確程度不高。這種傳統(tǒng)的人工新聞分類方法已經(jīng)不能滿足需求,因此,需要研究一種適用于勘探門戶新聞的自動(dòng)分類方法來(lái)解決現(xiàn)存問(wèn)題。而基于機(jī)器學(xué)習(xí)的方法能夠?qū)崿F(xiàn)勘探門戶新聞的自動(dòng)分類,改善人工進(jìn)行新聞分類的不足之處。本文深入分析了勘探門戶新聞文本特點(diǎn),在研究了機(jī)器學(xué)習(xí)在文本分類中關(guān)鍵技術(shù)的基礎(chǔ)上,通過(guò)實(shí)驗(yàn)對(duì)比了幾種在新聞文本分類中的常用技術(shù),選擇了一套適用于勘探門戶新聞自動(dòng)分類的方法,提出了基于機(jī)器學(xué)習(xí)的勘探門戶新聞自動(dòng)分類系統(tǒng)的設(shè)計(jì)思路與總體設(shè)計(jì)方案。首先對(duì)新聞文本進(jìn)行預(yù)處理,然后采用CHI的方法進(jìn)行特征提取,接著使用TF-IDF進(jìn)行特征的權(quán)重計(jì)算,然后使用SVM分類算法來(lái)建立分類模型。本文對(duì)于中國(guó)石油勘探與分公司門戶,設(shè)計(jì)并開(kāi)發(fā)了基于機(jī)器學(xué)習(xí)的勘探門戶新聞分類系統(tǒng)。通過(guò)該系統(tǒng),從新聞源處獲取的新聞可以自動(dòng)被分類到其所屬的類別中。實(shí)驗(yàn)結(jié)果顯示,使用該分類系統(tǒng)對(duì)勘探門戶新聞分類準(zhǔn)確率達(dá)到了85.7%,實(shí)現(xiàn)了對(duì)勘探門戶新聞的自動(dòng)分類,提高了分類...

【文章來(lái)源】：西安石油大學(xué)陜西省

【文章頁(yè)數(shù)】：63 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

勘探門戶新聞內(nèi)容界面

新聞,科技動(dòng)態(tài)

圖 2-3 勘探門戶新聞科技動(dòng)態(tài)分類新聞列表為了使勘探門戶新聞分類更加準(zhǔn)確、高效，在利用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類之前必須找到一種方法，將各個(gè)類別中能對(duì)該分類有很大區(qū)分度的關(guān)鍵詞進(jìn)行提取，然后使用某種加權(quán)方法對(duì)這些關(guān)鍵詞賦予比其他關(guān)鍵字更高的權(quán)重。通過(guò)對(duì)加權(quán)過(guò)的關(guān)鍵字進(jìn)行分類算法處理，可以大大提高分類的準(zhǔn)確程度和分類效率。2.3 新聞文本數(shù)值化表示在對(duì)新聞文本的原始數(shù)據(jù)進(jìn)行提取特征詞等處理后，文本還是由漢字組成，計(jì)算機(jī)并不能理解其中的含義，所以無(wú)法直接處理勘探門戶新聞中的詞匯。為了讓計(jì)算機(jī)能夠理解從勘探門戶收集到的詞匯，我們需要將詞匯信息映射到一個(gè)數(shù)值化的向量中，也可以稱為文本數(shù)據(jù)的向量化。2.3.1 文本向量化概述文本向量化的粒度我們可以分為以下三種形式：

新聞,數(shù)據(jù),文本

圖 3-2 爬取的勘探門戶新聞數(shù)據(jù)由于在進(jìn)一步對(duì)爬取到的勘探門戶新聞處理時(shí)，逐條來(lái)讀取 Excel 文件效率低下，而且在處理時(shí)花費(fèi)時(shí)間較大，所以把每個(gè)分類的 Excel 表格另存為 txt 格式文檔，再進(jìn)行一次 UTF-8 編碼進(jìn)行轉(zhuǎn)碼，即可進(jìn)行下一步的去停用詞處理2．去停用詞在文本預(yù)處理中，去停用詞是十分重要的。在對(duì)文本中的海量數(shù)據(jù)進(jìn)行處理時(shí)，由于文本中存在著大量的冗余詞匯和無(wú)效的詞匯以及標(biāo)點(diǎn)符號(hào)，這會(huì)影響到數(shù)據(jù)的處理效果，因此在進(jìn)行文本分析時(shí)需要將其刪除，這里將這些被刪除的詞稱之為停用詞。通過(guò)網(wǎng)上下載常用的中文停用詞表，然后分析觀察勘探門戶新聞文本中常出現(xiàn)的對(duì)分類沒(méi)有意義的詞，添加到停用詞表中。3．消除文本噪聲通過(guò)對(duì)門戶新聞的觀察研究，發(fā)現(xiàn)新聞內(nèi)容的開(kāi)頭與結(jié)尾都有一些共同的無(wú)用信息，比如在爬取過(guò)程中加入的“頁(yè)面內(nèi)容”這幾個(gè)字和日期信息，還有文章結(jié)尾處的記者信息，這些對(duì)文本分類并沒(méi)有任何意義，屬于文本噪聲，如圖 3-3 所示：

【參考文獻(xiàn)】：
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一.  電力信息與通信技術(shù). 2018(03)
[2]基于概念語(yǔ)義相似度計(jì)算模型的信息檢索研究[J]. 楊春龍,顧春華.  計(jì)算機(jī)應(yīng)用與軟件. 2013(06)
[3]應(yīng)用HITS算法對(duì)文本聚類結(jié)果進(jìn)行類別描述的可行性分析[J]. 趙悅陽(yáng),崔雷.  醫(yī)學(xué)信息學(xué)雜志. 2012(12)
[4]SVM核函數(shù)對(duì)分類精度影響的研究[J]. 劉大寧,楊永樂(lè),白林.  佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(04)
[5]基于主題網(wǎng)絡(luò)爬蟲(chóng)的高校網(wǎng)絡(luò)信息動(dòng)態(tài)搜索策略研究[J]. 王魯榮.  四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(06)
[6]一種基于粗糙集文本自動(dòng)分類的改進(jìn)算法[J]. 張保富,施化吉.  計(jì)算機(jī)工程與應(yīng)用. 2011(24)
[7]基于概率潛在語(yǔ)義分析的中文文本分類研究[J]. 王奕.  甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[8]國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金.  圖書(shū)情報(bào)工作. 2011(07)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國(guó)和.  計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[10]Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評(píng)測(cè)[J]. 孫殿哲,魏海平,陳巖.  計(jì)算機(jī)與現(xiàn)代化. 2010(06)

博士論文
[1]關(guān)聯(lián)數(shù)據(jù)和知識(shí)表示的自動(dòng)語(yǔ)義標(biāo)注技術(shù)[D]. 謝銘.武漢大學(xué) 2012
[2]基于潛在語(yǔ)義分析的社會(huì)化標(biāo)注系統(tǒng)標(biāo)簽語(yǔ)義檢索研究[D]. 宣云干.南京大學(xué) 2011
[3]面向語(yǔ)義網(wǎng)的語(yǔ)義搜索引擎關(guān)鍵技術(shù)研究[D]. 史斌.北京工業(yè)大學(xué) 2010

碩士論文
[1]基于信息量的語(yǔ)義相似度計(jì)算方法研究[D]. 趙揚(yáng).東北師范大學(xué) 2015
[2]基于影響力的社會(huì)網(wǎng)絡(luò)關(guān)鍵用戶識(shí)別方法研究[D]. 田中生.吉林大學(xué) 2015
[3]Web挖掘中的HITS算法的一種改進(jìn)策略[D]. 吳宗展.吉林大學(xué) 2013
[4]多特征融合的博客文章排序和分類算法研究[D]. 王芳.蘭州理工大學(xué) 2012
[5]中文分詞算法的研究與實(shí)現(xiàn)[D]. 林冬盛.西北大學(xué) 2011
[6]主題爬蟲(chóng)搜索策略研究[D]. 陳叢叢.山東大學(xué) 2009
[7]多類別科技文獻(xiàn)自動(dòng)分類系統(tǒng)[D]. 陳玉芹.華中科技大學(xué) 2008
[8]領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D]. 郭嘉琦.北京郵電大學(xué) 2007
[9]基于倒排索引的全文檢索技術(shù)研究[D]. 劉興宇.華中科技大學(xué) 2004

本文編號(hào)：3372687

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3372687.html

上一篇：基于Spring Cloud的回顧式閱讀輔助系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：桂粵沿海省際邊界地區(qū)城鄉(xiāng)建設(shè)用地變化特征分析及預(yù)測(cè)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機(jī)器學(xué)習(xí)的勘探門戶新聞自動(dòng)分類研究