基于機器學(xué)習(xí)的勘探門戶新聞自動分類研究
發(fā)布時間:2021-08-30 11:24
隨著勘探門戶新聞數(shù)據(jù)量的提升,新聞內(nèi)容的復(fù)雜度增加,導(dǎo)致傳統(tǒng)人工進行新聞分類的的方法效率越來越低,并且人工進行新聞分類很容易受到主觀因素的影響,使得分類的準確程度不高。這種傳統(tǒng)的人工新聞分類方法已經(jīng)不能滿足需求,因此,需要研究一種適用于勘探門戶新聞的自動分類方法來解決現(xiàn)存問題。而基于機器學(xué)習(xí)的方法能夠?qū)崿F(xiàn)勘探門戶新聞的自動分類,改善人工進行新聞分類的不足之處。本文深入分析了勘探門戶新聞文本特點,在研究了機器學(xué)習(xí)在文本分類中關(guān)鍵技術(shù)的基礎(chǔ)上,通過實驗對比了幾種在新聞文本分類中的常用技術(shù),選擇了一套適用于勘探門戶新聞自動分類的方法,提出了基于機器學(xué)習(xí)的勘探門戶新聞自動分類系統(tǒng)的設(shè)計思路與總體設(shè)計方案。首先對新聞文本進行預(yù)處理,然后采用CHI的方法進行特征提取,接著使用TF-IDF進行特征的權(quán)重計算,然后使用SVM分類算法來建立分類模型。本文對于中國石油勘探與分公司門戶,設(shè)計并開發(fā)了基于機器學(xué)習(xí)的勘探門戶新聞分類系統(tǒng)。通過該系統(tǒng),從新聞源處獲取的新聞可以自動被分類到其所屬的類別中。實驗結(jié)果顯示,使用該分類系統(tǒng)對勘探門戶新聞分類準確率達到了85.7%,實現(xiàn)了對勘探門戶新聞的自動分類,提高了分類...
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
勘探門戶新聞內(nèi)容界面
圖 2-3 勘探門戶新聞科技動態(tài)分類新聞列表為了使勘探門戶新聞分類更加準確、高效,在利用機器學(xué)習(xí)分類算法進行分類之前必須找到一種方法,將各個類別中能對該分類有很大區(qū)分度的關(guān)鍵詞進行提取,然后使用某種加權(quán)方法對這些關(guān)鍵詞賦予比其他關(guān)鍵字更高的權(quán)重。通過對加權(quán)過的關(guān)鍵字進行分類算法處理,可以大大提高分類的準確程度和分類效率。2.3 新聞文本數(shù)值化表示在對新聞文本的原始數(shù)據(jù)進行提取特征詞等處理后,文本還是由漢字組成,計算機并不能理解其中的含義,所以無法直接處理勘探門戶新聞中的詞匯。為了讓計算機能夠理解從勘探門戶收集到的詞匯,我們需要將詞匯信息映射到一個數(shù)值化的向量中,也可以稱為文本數(shù)據(jù)的向量化。2.3.1 文本向量化概述文本向量化的粒度我們可以分為以下三種形式:
圖 3-2 爬取的勘探門戶新聞數(shù)據(jù)由于在進一步對爬取到的勘探門戶新聞處理時,逐條來讀取 Excel 文件效率低下,而且在處理時花費時間較大,所以把每個分類的 Excel 表格另存為 txt 格式文檔, 再進行一次 UTF-8 編碼進行轉(zhuǎn)碼,即可進行下一步的去停用詞處理2.去停用詞在文本預(yù)處理中,去停用詞是十分重要的。在對文本中的海量數(shù)據(jù)進行處理時,由于文本中存在著大量的冗余詞匯和無效的詞匯以及標點符號,這會影響到數(shù)據(jù)的處理效果,因此在進行文本分析時需要將其刪除,這里將這些被刪除的詞稱之為停用詞。通過網(wǎng)上下載常用的中文停用詞表,然后分析觀察勘探門戶新聞文本中常出現(xiàn)的對分類沒有意義的詞,添加到停用詞表中。3.消除文本噪聲通過對門戶新聞的觀察研究,發(fā)現(xiàn)新聞內(nèi)容的開頭與結(jié)尾都有一些共同的無用信息,比如在爬取過程中加入的“頁面內(nèi)容”這幾個字和日期信息,還有文章結(jié)尾處的記者信息,這些對文本分類并沒有任何意義,屬于文本噪聲,如圖 3-3 所示:
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[2]基于概念語義相似度計算模型的信息檢索研究[J]. 楊春龍,顧春華. 計算機應(yīng)用與軟件. 2013(06)
[3]應(yīng)用HITS算法對文本聚類結(jié)果進行類別描述的可行性分析[J]. 趙悅陽,崔雷. 醫(yī)學(xué)信息學(xué)雜志. 2012(12)
[4]SVM核函數(shù)對分類精度影響的研究[J]. 劉大寧,楊永樂,白林. 佳木斯大學(xué)學(xué)報(自然科學(xué)版). 2012(04)
[5]基于主題網(wǎng)絡(luò)爬蟲的高校網(wǎng)絡(luò)信息動態(tài)搜索策略研究[J]. 王魯榮. 四川師范大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[6]一種基于粗糙集文本自動分類的改進算法[J]. 張保富,施化吉. 計算機工程與應(yīng)用. 2011(24)
[7]基于概率潛在語義分析的中文文本分類研究[J]. 王奕. 甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[8]國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金. 圖書情報工作. 2011(07)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應(yīng)用. 2011(03)
[10]Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J]. 孫殿哲,魏海平,陳巖. 計算機與現(xiàn)代化. 2010(06)
博士論文
[1]關(guān)聯(lián)數(shù)據(jù)和知識表示的自動語義標注技術(shù)[D]. 謝銘.武漢大學(xué) 2012
[2]基于潛在語義分析的社會化標注系統(tǒng)標簽語義檢索研究[D]. 宣云干.南京大學(xué) 2011
[3]面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D]. 史斌.北京工業(yè)大學(xué) 2010
碩士論文
[1]基于信息量的語義相似度計算方法研究[D]. 趙揚.東北師范大學(xué) 2015
[2]基于影響力的社會網(wǎng)絡(luò)關(guān)鍵用戶識別方法研究[D]. 田中生.吉林大學(xué) 2015
[3]Web挖掘中的HITS算法的一種改進策略[D]. 吳宗展.吉林大學(xué) 2013
[4]多特征融合的博客文章排序和分類算法研究[D]. 王芳.蘭州理工大學(xué) 2012
[5]中文分詞算法的研究與實現(xiàn)[D]. 林冬盛.西北大學(xué) 2011
[6]主題爬蟲搜索策略研究[D]. 陳叢叢.山東大學(xué) 2009
[7]多類別科技文獻自動分類系統(tǒng)[D]. 陳玉芹.華中科技大學(xué) 2008
[8]領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D]. 郭嘉琦.北京郵電大學(xué) 2007
[9]基于倒排索引的全文檢索技術(shù)研究[D]. 劉興宇.華中科技大學(xué) 2004
本文編號:3372687
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
勘探門戶新聞內(nèi)容界面
圖 2-3 勘探門戶新聞科技動態(tài)分類新聞列表為了使勘探門戶新聞分類更加準確、高效,在利用機器學(xué)習(xí)分類算法進行分類之前必須找到一種方法,將各個類別中能對該分類有很大區(qū)分度的關(guān)鍵詞進行提取,然后使用某種加權(quán)方法對這些關(guān)鍵詞賦予比其他關(guān)鍵字更高的權(quán)重。通過對加權(quán)過的關(guān)鍵字進行分類算法處理,可以大大提高分類的準確程度和分類效率。2.3 新聞文本數(shù)值化表示在對新聞文本的原始數(shù)據(jù)進行提取特征詞等處理后,文本還是由漢字組成,計算機并不能理解其中的含義,所以無法直接處理勘探門戶新聞中的詞匯。為了讓計算機能夠理解從勘探門戶收集到的詞匯,我們需要將詞匯信息映射到一個數(shù)值化的向量中,也可以稱為文本數(shù)據(jù)的向量化。2.3.1 文本向量化概述文本向量化的粒度我們可以分為以下三種形式:
圖 3-2 爬取的勘探門戶新聞數(shù)據(jù)由于在進一步對爬取到的勘探門戶新聞處理時,逐條來讀取 Excel 文件效率低下,而且在處理時花費時間較大,所以把每個分類的 Excel 表格另存為 txt 格式文檔, 再進行一次 UTF-8 編碼進行轉(zhuǎn)碼,即可進行下一步的去停用詞處理2.去停用詞在文本預(yù)處理中,去停用詞是十分重要的。在對文本中的海量數(shù)據(jù)進行處理時,由于文本中存在著大量的冗余詞匯和無效的詞匯以及標點符號,這會影響到數(shù)據(jù)的處理效果,因此在進行文本分析時需要將其刪除,這里將這些被刪除的詞稱之為停用詞。通過網(wǎng)上下載常用的中文停用詞表,然后分析觀察勘探門戶新聞文本中常出現(xiàn)的對分類沒有意義的詞,添加到停用詞表中。3.消除文本噪聲通過對門戶新聞的觀察研究,發(fā)現(xiàn)新聞內(nèi)容的開頭與結(jié)尾都有一些共同的無用信息,比如在爬取過程中加入的“頁面內(nèi)容”這幾個字和日期信息,還有文章結(jié)尾處的記者信息,這些對文本分類并沒有任何意義,屬于文本噪聲,如圖 3-3 所示:
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[2]基于概念語義相似度計算模型的信息檢索研究[J]. 楊春龍,顧春華. 計算機應(yīng)用與軟件. 2013(06)
[3]應(yīng)用HITS算法對文本聚類結(jié)果進行類別描述的可行性分析[J]. 趙悅陽,崔雷. 醫(yī)學(xué)信息學(xué)雜志. 2012(12)
[4]SVM核函數(shù)對分類精度影響的研究[J]. 劉大寧,楊永樂,白林. 佳木斯大學(xué)學(xué)報(自然科學(xué)版). 2012(04)
[5]基于主題網(wǎng)絡(luò)爬蟲的高校網(wǎng)絡(luò)信息動態(tài)搜索策略研究[J]. 王魯榮. 四川師范大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[6]一種基于粗糙集文本自動分類的改進算法[J]. 張保富,施化吉. 計算機工程與應(yīng)用. 2011(24)
[7]基于概率潛在語義分析的中文文本分類研究[J]. 王奕. 甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[8]國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金. 圖書情報工作. 2011(07)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應(yīng)用. 2011(03)
[10]Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J]. 孫殿哲,魏海平,陳巖. 計算機與現(xiàn)代化. 2010(06)
博士論文
[1]關(guān)聯(lián)數(shù)據(jù)和知識表示的自動語義標注技術(shù)[D]. 謝銘.武漢大學(xué) 2012
[2]基于潛在語義分析的社會化標注系統(tǒng)標簽語義檢索研究[D]. 宣云干.南京大學(xué) 2011
[3]面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D]. 史斌.北京工業(yè)大學(xué) 2010
碩士論文
[1]基于信息量的語義相似度計算方法研究[D]. 趙揚.東北師范大學(xué) 2015
[2]基于影響力的社會網(wǎng)絡(luò)關(guān)鍵用戶識別方法研究[D]. 田中生.吉林大學(xué) 2015
[3]Web挖掘中的HITS算法的一種改進策略[D]. 吳宗展.吉林大學(xué) 2013
[4]多特征融合的博客文章排序和分類算法研究[D]. 王芳.蘭州理工大學(xué) 2012
[5]中文分詞算法的研究與實現(xiàn)[D]. 林冬盛.西北大學(xué) 2011
[6]主題爬蟲搜索策略研究[D]. 陳叢叢.山東大學(xué) 2009
[7]多類別科技文獻自動分類系統(tǒng)[D]. 陳玉芹.華中科技大學(xué) 2008
[8]領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D]. 郭嘉琦.北京郵電大學(xué) 2007
[9]基于倒排索引的全文檢索技術(shù)研究[D]. 劉興宇.華中科技大學(xué) 2004
本文編號:3372687
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3372687.html
最近更新
教材專著