天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

中文推送短消息文本分類(lèi)技術(shù)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-06-04 04:29
【摘要】:隨著近年通信技術(shù)的大幅進(jìn)步,以及智能手機(jī)功能的逐步完善與用戶(hù)量的日益增多,移動(dòng)互聯(lián)網(wǎng)行業(yè)得以極速發(fā)展,并已廣泛融入于大眾生活中,從而產(chǎn)生大量的用戶(hù)推送信息。這些推送信息可反映出相關(guān)行業(yè)的發(fā)展情況,然而其內(nèi)容過(guò)于繁雜,難以進(jìn)行管理。如何對(duì)這些信息進(jìn)行有效過(guò)濾和整理,挖掘其中潛在價(jià)值成為一個(gè)亟需解決的問(wèn)題。本文主要研究了針對(duì)中文推送短消息的自動(dòng)分類(lèi)問(wèn)題,根據(jù)文本數(shù)據(jù)的特點(diǎn)實(shí)現(xiàn)并改進(jìn)了分類(lèi)算法。首先研究了文本預(yù)處理的相關(guān)技術(shù),選用合適的分詞方法,對(duì)某公司的推送短消息文本進(jìn)行分詞處理。完成分詞處理以后,使用卡方校驗(yàn)的方式選擇文本特征,將降維的文本轉(zhuǎn)化為稀疏向量的形式。之后通過(guò)kNN算法對(duì)四種文本相似性計(jì)算方法進(jìn)行實(shí)驗(yàn)對(duì)比,根據(jù)實(shí)驗(yàn)結(jié)果選擇了余弦相似度大小作為分類(lèi)過(guò)程中查找近鄰點(diǎn)的依據(jù)。然后,分析了kNN和決策樹(shù)兩種常用分類(lèi)算法的優(yōu)勢(shì)與不足。由于kNN算法計(jì)算繁瑣,耗時(shí)較長(zhǎng),本文提出了一種結(jié)合決策樹(shù)的改進(jìn)kNN文本分類(lèi)算法TREE-kNN。通過(guò)CART決策樹(shù),完成文本數(shù)據(jù)的預(yù)分類(lèi),評(píng)價(jià)每個(gè)葉子節(jié)點(diǎn)的分類(lèi)效果。對(duì)于評(píng)價(jià)較低的節(jié)點(diǎn)中對(duì)應(yīng)的樣本,它的比較范圍縮小為僅包含該葉子節(jié)點(diǎn)所覆蓋類(lèi)別下的子訓(xùn)練集,再對(duì)其使用改進(jìn)的kNN算法進(jìn)行分類(lèi)。通過(guò)對(duì)訓(xùn)練集中樣本空間的劃分,縮小了kNN分類(lèi)過(guò)程中與待分類(lèi)樣本比較的訓(xùn)練樣本范圍,減少了余弦相似度的計(jì)算次數(shù),從而提高分類(lèi)速度。為了解決k值較大情況下提速不明顯的問(wèn)題,本文引入了類(lèi)中心法優(yōu)化了近鄰樣本的查詢(xún)過(guò)程。實(shí)驗(yàn)結(jié)果顯示,TREE-kNN算法的分類(lèi)速度與傳統(tǒng)kNN算法相比有了明顯提升,分類(lèi)結(jié)果的正確率也得到了提高。最后,本文基于上述分類(lèi)方法設(shè)計(jì)和實(shí)現(xiàn)了針對(duì)大批量推送短消息數(shù)據(jù)的文本挖掘系統(tǒng),用于統(tǒng)計(jì)分類(lèi)后的文本數(shù)量分布情況,并對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行可視化處理。借助Spark平臺(tái),以并行化方式實(shí)現(xiàn)了文本特征選擇和文本向量化;將文本分詞,文本分類(lèi)過(guò)程拆分成多個(gè)數(shù)據(jù)分區(qū)并行執(zhí)行,提高了任務(wù)執(zhí)行效率。文本分類(lèi)完成后,利用Spark統(tǒng)計(jì)交易類(lèi)文本的條數(shù)的時(shí)間分布和電商物流類(lèi)文本條數(shù)的空間分布情況,保存到數(shù)據(jù)庫(kù)中。同時(shí)采用Web技術(shù),將統(tǒng)計(jì)數(shù)據(jù)的查詢(xún)方法封裝到Dubbo服務(wù)中,由系統(tǒng)的控制器模塊向數(shù)據(jù)查詢(xún)服務(wù)發(fā)起請(qǐng)求,將返回的統(tǒng)計(jì)數(shù)據(jù)發(fā)送到前端,前端利用Echarts把傳來(lái)的數(shù)據(jù)繪制成圖的形式渲染到頁(yè)面中。通過(guò)這種方式,清楚的展現(xiàn)出了推送短消息文本的時(shí)空分布規(guī)律。
【圖文】:

對(duì)比圖,對(duì)比圖,效率,方法


西安電子科技大學(xué)碩士學(xué)位論文12圖2.3 分詞效率對(duì)比圖實(shí)驗(yàn)結(jié)果顯示,分詞速度最快的前幾位由高到低分別是:Ansj 的 BaseAnalysis 方法,Ansj 的 ToAnalysis 方法,HanLP 的 SpeedTokenizer 方法,,HanLP 的 Viterbi 方法,Jieba 分詞器。2.4 文本分詞技術(shù)選擇F 值是兼顧查準(zhǔn)率和召回率的綜合性評(píng)價(jià)指標(biāo),它能夠更全面的反映出分詞結(jié)果的好壞程度,因此本文使用 F 值作為評(píng)價(jià)分詞性能的參考標(biāo)準(zhǔn)。由于 HanLP 的 Viterbi方法在分詞速度上明顯快于 F 值最高的兩種 NLP 分詞方法

初始分布,近鄰,樣本,最近鄰


近鄰樣本初始分布圖
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP18;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙國(guó)棟;李偉;張政;王昊;;一種基于語(yǔ)音識(shí)別與文本分類(lèi)技術(shù)的非法廣播判別方法[J];中國(guó)無(wú)線(xiàn)電;2020年01期

2 高影繁;王惠臨;徐紅姣;;跨語(yǔ)言文本分類(lèi)技術(shù)研究進(jìn)展[J];情報(bào)理論與實(shí)踐;2010年11期

3 張春紅;;文本分類(lèi)技術(shù)應(yīng)用于學(xué)科導(dǎo)航分類(lèi)的可行性探討[J];情報(bào)科學(xué);2009年07期

4 周文霞;;現(xiàn)代文本分類(lèi)技術(shù)研究[J];武警學(xué)院學(xué)報(bào);2007年12期

5 高潔,吉根林;文本分類(lèi)技術(shù)研究[J];計(jì)算機(jī)應(yīng)用研究;2004年07期

6 陳莊;楊春玉;;面向監(jiān)理工程的文本分類(lèi)技術(shù)研究[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2017年10期

7 張浩;汪楠;;文本分類(lèi)技術(shù)研究進(jìn)展[J];科技信息(科學(xué)教研);2007年23期

8 胡恬;王敬;;中文文本分類(lèi)技術(shù)的研究[J];科技咨詢(xún)導(dǎo)報(bào);2006年09期

9 鄧丁朋;周亞建;池俊輝;李佳樂(lè);;短文本分類(lèi)技術(shù)研究綜述[J];軟件;2020年02期

10 浦海晨,萬(wàn)曉冬;一種基于文本分類(lèi)技術(shù)的郵件過(guò)濾系統(tǒng)設(shè)計(jì)[J];科技廣場(chǎng);2005年06期

相關(guān)會(huì)議論文 前4條

1 張娟;王慧鋒;;文本分類(lèi)技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2005年

2 陳慶軒;鄭德權(quán);趙鐵軍;;多分類(lèi)器融合的文本分類(lèi)技術(shù)研究[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

3 嚴(yán)春美;郭熙銅;陳曉東;;基于電子病歷的智能診斷系統(tǒng)研究[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年

4 賀瑞芳;鐘紹春;程曉春;;教學(xué)資源的個(gè)性化搜索引擎研究[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

相關(guān)重要報(bào)紙文章 前1條

1 周東;數(shù)威:創(chuàng)業(yè)之路有點(diǎn)難[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2005年

相關(guān)博士學(xué)位論文 前4條

1 井奚月;文本分類(lèi)技術(shù)在文獻(xiàn)篩檢及質(zhì)性研究中的應(yīng)用研究[D];天津醫(yī)科大學(xué);2019年

2 程軍;基于統(tǒng)計(jì)的文本分類(lèi)技術(shù)研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

3 郝秀蘭;文本分類(lèi)技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年

4 楊創(chuàng)新;基于機(jī)器學(xué)習(xí)的高性能中文文本分類(lèi)研究[D];華南理工大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 金旭;面向非對(duì)稱(chēng)和多標(biāo)簽的文本分類(lèi)技術(shù)研究[D];南京郵電大學(xué);2019年

2 王旌舟;中文文本分類(lèi)技術(shù)研究及應(yīng)用[D];西南交通大學(xué);2019年

3 鄭騰;基于LDA特征擴(kuò)展的短文本分類(lèi)技術(shù)研究[D];武漢紡織大學(xué);2019年

4 蔡九鳴;中文推送短消息文本分類(lèi)技術(shù)研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2019年

5 付豪;基于同異性遷移學(xué)習(xí)的短文本分類(lèi)技術(shù)研究與應(yīng)用[D];北京郵電大學(xué);2019年

6 興艷云;基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究[D];青島科技大學(xué);2019年

7 陳震鴻;基于深度學(xué)習(xí)的多任務(wù)文本分類(lèi)技術(shù)研究[D];華南理工大學(xué);2018年

8 張賽北;基于Spark的文本分類(lèi)技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2017年

9 石逸軒;基于深度學(xué)習(xí)的文本分類(lèi)技術(shù)研究[D];北京郵電大學(xué);2018年

10 姜松潤(rùn);手機(jī)取證中基于維基百科的文本分類(lèi)技術(shù)研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年



本文編號(hào):2695894

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2695894.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b1b82***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com