天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于機器學(xué)習(xí)的勘探門戶新聞自動分類研究

發(fā)布時間:2021-08-30 11:24
  隨著勘探門戶新聞數(shù)據(jù)量的提升,新聞內(nèi)容的復(fù)雜度增加,導(dǎo)致傳統(tǒng)人工進行新聞分類的的方法效率越來越低,并且人工進行新聞分類很容易受到主觀因素的影響,使得分類的準確程度不高。這種傳統(tǒng)的人工新聞分類方法已經(jīng)不能滿足需求,因此,需要研究一種適用于勘探門戶新聞的自動分類方法來解決現(xiàn)存問題。而基于機器學(xué)習(xí)的方法能夠?qū)崿F(xiàn)勘探門戶新聞的自動分類,改善人工進行新聞分類的不足之處。本文深入分析了勘探門戶新聞文本特點,在研究了機器學(xué)習(xí)在文本分類中關(guān)鍵技術(shù)的基礎(chǔ)上,通過實驗對比了幾種在新聞文本分類中的常用技術(shù),選擇了一套適用于勘探門戶新聞自動分類的方法,提出了基于機器學(xué)習(xí)的勘探門戶新聞自動分類系統(tǒng)的設(shè)計思路與總體設(shè)計方案。首先對新聞文本進行預(yù)處理,然后采用CHI的方法進行特征提取,接著使用TF-IDF進行特征的權(quán)重計算,然后使用SVM分類算法來建立分類模型。本文對于中國石油勘探與分公司門戶,設(shè)計并開發(fā)了基于機器學(xué)習(xí)的勘探門戶新聞分類系統(tǒng)。通過該系統(tǒng),從新聞源處獲取的新聞可以自動被分類到其所屬的類別中。實驗結(jié)果顯示,使用該分類系統(tǒng)對勘探門戶新聞分類準確率達到了85.7%,實現(xiàn)了對勘探門戶新聞的自動分類,提高了分類... 

【文章來源】:西安石油大學(xué)陜西省

【文章頁數(shù)】:63 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于機器學(xué)習(xí)的勘探門戶新聞自動分類研究


勘探門戶新聞內(nèi)容界面

新聞,科技動態(tài)


圖 2-3 勘探門戶新聞科技動態(tài)分類新聞列表為了使勘探門戶新聞分類更加準確、高效,在利用機器學(xué)習(xí)分類算法進行分類之前必須找到一種方法,將各個類別中能對該分類有很大區(qū)分度的關(guān)鍵詞進行提取,然后使用某種加權(quán)方法對這些關(guān)鍵詞賦予比其他關(guān)鍵字更高的權(quán)重。通過對加權(quán)過的關(guān)鍵字進行分類算法處理,可以大大提高分類的準確程度和分類效率。2.3 新聞文本數(shù)值化表示在對新聞文本的原始數(shù)據(jù)進行提取特征詞等處理后,文本還是由漢字組成,計算機并不能理解其中的含義,所以無法直接處理勘探門戶新聞中的詞匯。為了讓計算機能夠理解從勘探門戶收集到的詞匯,我們需要將詞匯信息映射到一個數(shù)值化的向量中,也可以稱為文本數(shù)據(jù)的向量化。2.3.1 文本向量化概述文本向量化的粒度我們可以分為以下三種形式:

新聞,數(shù)據(jù),文本


圖 3-2 爬取的勘探門戶新聞數(shù)據(jù)由于在進一步對爬取到的勘探門戶新聞處理時,逐條來讀取 Excel 文件效率低下,而且在處理時花費時間較大,所以把每個分類的 Excel 表格另存為 txt 格式文檔, 再進行一次 UTF-8 編碼進行轉(zhuǎn)碼,即可進行下一步的去停用詞處理2.去停用詞在文本預(yù)處理中,去停用詞是十分重要的。在對文本中的海量數(shù)據(jù)進行處理時,由于文本中存在著大量的冗余詞匯和無效的詞匯以及標點符號,這會影響到數(shù)據(jù)的處理效果,因此在進行文本分析時需要將其刪除,這里將這些被刪除的詞稱之為停用詞。通過網(wǎng)上下載常用的中文停用詞表,然后分析觀察勘探門戶新聞文本中常出現(xiàn)的對分類沒有意義的詞,添加到停用詞表中。3.消除文本噪聲通過對門戶新聞的觀察研究,發(fā)現(xiàn)新聞內(nèi)容的開頭與結(jié)尾都有一些共同的無用信息,比如在爬取過程中加入的“頁面內(nèi)容”這幾個字和日期信息,還有文章結(jié)尾處的記者信息,這些對文本分類并沒有任何意義,屬于文本噪聲,如圖 3-3 所示:

【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一.  電力信息與通信技術(shù). 2018(03)
[2]基于概念語義相似度計算模型的信息檢索研究[J]. 楊春龍,顧春華.  計算機應(yīng)用與軟件. 2013(06)
[3]應(yīng)用HITS算法對文本聚類結(jié)果進行類別描述的可行性分析[J]. 趙悅陽,崔雷.  醫(yī)學(xué)信息學(xué)雜志. 2012(12)
[4]SVM核函數(shù)對分類精度影響的研究[J]. 劉大寧,楊永樂,白林.  佳木斯大學(xué)學(xué)報(自然科學(xué)版). 2012(04)
[5]基于主題網(wǎng)絡(luò)爬蟲的高校網(wǎng)絡(luò)信息動態(tài)搜索策略研究[J]. 王魯榮.  四川師范大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[6]一種基于粗糙集文本自動分類的改進算法[J]. 張保富,施化吉.  計算機工程與應(yīng)用. 2011(24)
[7]基于概率潛在語義分析的中文文本分類研究[J]. 王奕.  甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[8]國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金.  圖書情報工作. 2011(07)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和.  計算機工程與應(yīng)用. 2011(03)
[10]Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J]. 孫殿哲,魏海平,陳巖.  計算機與現(xiàn)代化. 2010(06)

博士論文
[1]關(guān)聯(lián)數(shù)據(jù)和知識表示的自動語義標注技術(shù)[D]. 謝銘.武漢大學(xué) 2012
[2]基于潛在語義分析的社會化標注系統(tǒng)標簽語義檢索研究[D]. 宣云干.南京大學(xué) 2011
[3]面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D]. 史斌.北京工業(yè)大學(xué) 2010

碩士論文
[1]基于信息量的語義相似度計算方法研究[D]. 趙揚.東北師范大學(xué) 2015
[2]基于影響力的社會網(wǎng)絡(luò)關(guān)鍵用戶識別方法研究[D]. 田中生.吉林大學(xué) 2015
[3]Web挖掘中的HITS算法的一種改進策略[D]. 吳宗展.吉林大學(xué) 2013
[4]多特征融合的博客文章排序和分類算法研究[D]. 王芳.蘭州理工大學(xué) 2012
[5]中文分詞算法的研究與實現(xiàn)[D]. 林冬盛.西北大學(xué) 2011
[6]主題爬蟲搜索策略研究[D]. 陳叢叢.山東大學(xué) 2009
[7]多類別科技文獻自動分類系統(tǒng)[D]. 陳玉芹.華中科技大學(xué) 2008
[8]領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D]. 郭嘉琦.北京郵電大學(xué) 2007
[9]基于倒排索引的全文檢索技術(shù)研究[D]. 劉興宇.華中科技大學(xué) 2004



本文編號:3372687

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3372687.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0d2c1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美日韩亚洲国产精品| 欧美字幕一区二区三区| 亚洲精品日韩欧美精品| 一区二区三区亚洲国产| 日本99精品在线观看| 国产视频一区二区三区四区| 欧美成人久久久免费播放| 在线日韩欧美国产自拍| 久久精品久久久精品久久| 丰满少妇被猛烈插入在线观看| 91久久精品中文内射| 亚洲一区在线观看蜜桃| 在线免费不卡亚洲国产| 99国产成人免费一区二区| 不卡一区二区高清视频| 91精品国产综合久久精品 | 国产丝袜极品黑色高跟鞋| 午夜精品麻豆视频91| 国产又粗又猛又长又大| 国内自拍偷拍福利视频| 夫妻激情视频一区二区三区| 又大又紧又硬又湿又爽又猛| 欧美亚洲另类久久久精品| 激情亚洲一区国产精品久久| 国产伦精品一一区二区三区高清版| 男人和女人黄 色大片| 亚洲一区二区福利在线| 在线中文字幕亚洲欧美一区| 中文字幕熟女人妻视频| 久久夜色精品国产高清不卡| 伊人久久青草地婷婷综合| 亚洲一区二区欧美激情| 欧美日韩人妻中文一区二区| 五月婷婷亚洲综合一区| 久久国产亚洲精品赲碰热 | 日韩丝袜诱惑一区二区| 五月的丁香婷婷综合网| 麻豆精品视频一二三区| 爽到高潮嗷嗷叫之在现观看| 91精品国产综合久久精品 | 手机在线观看亚洲中文字幕|