天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

文本分類TF-IDF算法的改進研究

發(fā)布時間:2021-04-17 11:33
  信息技術(shù)的快速發(fā)展,計算機硬件的計算能力和存儲能力的大幅度提升讓網(wǎng)絡(luò)信息爆炸式增長,給用戶及時有效地獲取所需信息帶來一定阻礙。文本分類是使用有標(biāo)記的文本訓(xùn)練集的有監(jiān)督學(xué)習(xí),由分類器訓(xùn)練出的模型將指定類別分配給未知類別的文檔,在一定程度上可以方便用戶獲取信息,提升用戶體驗。但是,隨著中國互聯(lián)網(wǎng)環(huán)境的發(fā)展,大量蘊含豐富信息的新詞得以普及。新詞是未被第六屆中文傾向性分析評測公開的舊詞典所收錄的詞,暫將其與未登錄詞同等看待。新詞的出現(xiàn)降低了中文分詞的合理性和準(zhǔn)確性,從而進一步影響到中文文本分類的精度。把文本從非結(jié)構(gòu)化轉(zhuǎn)化為結(jié)構(gòu)化的這一過程是整個文本分類工作的基石,特征項的賦值又是其中的重中之重。TF-IDF算法是目前使用頻率最高的特征權(quán)重算法,近些年來改進的特征權(quán)重TF-IDF算法大都局限在特征項出現(xiàn)頻次、位置以及特征項分布這些方面,而未考慮到新詞這一新興詞類的特殊性。因此本文提出基于新詞發(fā)現(xiàn)改進特征權(quán)重算法,主要工作在于識別新詞,并對特征項中的新詞采用改進后的特征權(quán)重算法來提升權(quán)重。此外,針對互聯(lián)網(wǎng)語料庫的特點,將新詞識別加入中文文本分類流程中并結(jié)合改進后的特征權(quán)重算法去改善文本分類流程。同... 

【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學(xué)位級別】:碩士

【部分圖文】:

文本分類TF-IDF算法的改進研究


TFIDF、TFIDF&NewTerm和NewTFIDF&NewTerm分類效果對比圖

分類器,語料庫,多項式


圖 4.2 MB、KNN 和 SVC 分類器在搜狗語料庫上的分類效果對比圖Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多項式樸素貝葉斯分類器和SVC 分類器的F1值間器和 KNN 分類器的 F1 值間存在交叉,但就整體效果來看,多類器的效果優(yōu)于 SVC 分類器優(yōu)于 KNN 分類器。第二個語料庫(新浪新聞?wù)Z料庫),本文依次采用多項式樸素貝 分類器和 KNN 分類器就識別新詞的同時采用改進的 TF-IDF 算作出圖 4.3,進一步比較三種分類算法的優(yōu)劣,以此期望選出實器應(yīng)用到這些類別分類需求的實際項目工作中。

分類器,語料庫,多項式


圖 4.2 MB、KNN 和 SVC 分類器在搜狗語料庫上的分類效果對比圖Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多項式樸素貝葉斯分類器和SVC 分類器的F1值間器和 KNN 分類器的 F1 值間存在交叉,但就整體效果來看,多類器的效果優(yōu)于 SVC 分類器優(yōu)于 KNN 分類器。第二個語料庫(新浪新聞?wù)Z料庫),本文依次采用多項式樸素貝 分類器和 KNN 分類器就識別新詞的同時采用改進的 TF-IDF 算作出圖 4.3,進一步比較三種分類算法的優(yōu)劣,以此期望選出實器應(yīng)用到這些類別分類需求的實際項目工作中。

【參考文獻】:
期刊論文
[1]基于標(biāo)記依賴關(guān)系集成分類器鏈的多示例多標(biāo)簽支持向量機算法[J]. 李村合,王文杰.  計算機系統(tǒng)應(yīng)用. 2017(04)
[2]面向網(wǎng)絡(luò)語言基于微博語料的新詞發(fā)現(xiàn)方法[J]. 雷一鳴,劉勇,霍華.  計算機工程與設(shè)計. 2017(03)
[3]一種基于改進的TF-IDF和支持向量機的中文文本分類研究[J]. 郭太勇.  軟件. 2016(12)
[4]一種改進的CHI文本特征選擇方法[J]. 樊存佳,汪友生,王雨婷.  計算機與現(xiàn)代化. 2016(11)
[5]基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健.  計算機應(yīng)用. 2016(10)
[6]基于改進TF-IDF算法的文本分類方法研究[J]. 賀科達,朱錚濤,程昱.  廣東工業(yè)大學(xué)學(xué)報. 2016(05)
[7]多類文本分類算法GS-SVDD[J]. 吳德,劉三陽,梁錦錦.  計算機科學(xué). 2016(08)
[8]基于改進的TF-IDF算法的微博話題檢測[J]. 陳朔鷹,金鎮(zhèn)晟.  科技導(dǎo)報. 2016(02)
[9]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿.  北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[10]基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 李文坤,張仰森,陳若愚.  計算機應(yīng)用研究. 2015(08)

碩士論文
[1]基于深度學(xué)習(xí)的知乎標(biāo)題的多標(biāo)簽文本分類[D]. 張闖.北京交通大學(xué) 2018
[2]基于多元特征融合和LSTM神經(jīng)網(wǎng)絡(luò)的中文評論情感分析[D]. 李科.太原理工大學(xué) 2017
[3]常用文本分類算法的分析與研究[D]. 楊康.重慶大學(xué) 2017
[4]基于規(guī)則與統(tǒng)計相融合的微博新詞發(fā)現(xiàn)研究[D]. 周霜霜.北京交通大學(xué) 2017
[5]對TF-IDF算法的改進及實驗研究[D]. 何曉靜.吉林大學(xué) 2017
[6]基于互信息的自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建方法研究[D]. 潘飛.北京工業(yè)大學(xué) 2015
[7]中文文本分類特征選擇方法的研究與實現(xiàn)[D]. 林艷峰.西安電子科技大學(xué) 2014
[8]基于信息增益和信息熵的特征詞權(quán)重計算研究[D]. 李海瑞.重慶大學(xué) 2012
[9]針對特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D]. 李明.南京航空航天大學(xué) 2012
[10]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學(xué) 2011



本文編號:3143379

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3143379.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd094***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久精品亚洲精品国产欧美| 日韩在线欧美一区二区| 好吊色免费在线观看视频| 日木乱偷人妻中文字幕在线| 国产午夜福利不卡片在线观看| 污污黄黄的成年亚洲毛片| 十八禁日本一区二区三区| 黑丝国产精品一区二区| 天堂av一区一区一区| 国产一级精品色特级色国产| 欧洲偷拍视频中文字幕| 狠狠做深爱婷婷久久综合| 中文字幕一区久久综合| 成人精品一级特黄大片| 亚洲天堂国产精品久久精品| 国产福利在线播放麻豆| 日本东京热加勒比一区二区| 欧美亚洲三级视频在线观看| 欧美一级内射一色桃子| 日韩精品在线观看一区| 国产精品亚洲综合色区韩国| 大香蕉伊人精品在线观看| 一本久道久久综合中文字幕| 一区二区三区四区亚洲专区 | 亚洲精品中文字幕无限乱码| 免费观看成人免费视频| 日韩性生活视频免费在线观看| 精品女同一区二区三区| 激情视频在线视频在线视频| 国产精品亚洲一级av第二区| 国产免费操美女逼视频| 日韩精品一区二区亚洲| 久久久免费精品人妻一区二区三区| 人人妻人人澡人人夜夜| 日韩一区中文免费视频| 久久本道综合色狠狠五月| 少妇激情在线免费观看| 日本妇女高清一区二区三区| 制服丝袜美腿美女一区二区| 日韩精品一区二区三区含羞含羞草| 成人综合网视频在线观看|