基于Word2Vec的在線商品特征提取與文本分類研究
發(fā)布時(shí)間:2021-09-06 11:07
隨著信息時(shí)代的發(fā)展,信息過(guò)量增加了互聯(lián)網(wǎng)用戶對(duì)資訊識(shí)別的難度,傳播的內(nèi)容變得更加碎片化。文本分類技術(shù)通過(guò)自動(dòng)識(shí)別特征信息,在龐大的文本數(shù)據(jù)中快速提取文檔的核心內(nèi)容,提高信息的檢索效率。作為有效處理非結(jié)構(gòu)化數(shù)據(jù)的工具,文本分類在數(shù)據(jù)挖掘領(lǐng)域逐漸成為研究熱點(diǎn)。面向電子商務(wù)領(lǐng)域的文本數(shù)據(jù)更多呈現(xiàn)的是短文本形式,如商品標(biāo)題、商品評(píng)論等。針對(duì)在線商品的管理首先依賴于商品的類目屬性,在產(chǎn)品上架過(guò)程中由于用戶的領(lǐng)域知識(shí)差異,會(huì)造成商品類目錯(cuò)置的問(wèn)題,使得網(wǎng)絡(luò)零售市場(chǎng)混亂,從而損害商家利益。為了維持網(wǎng)絡(luò)銷售市場(chǎng)秩序,提高市場(chǎng)管理效率,本文提出了一種基于Word2Vec文本表達(dá)的短文本分類新途徑,F(xiàn)實(shí)生活中常存在類別不平衡的文本語(yǔ)料,本文通過(guò)skip-gram模型對(duì)在線商品標(biāo)題文本訓(xùn)練得到詞向量表示,構(gòu)建特征間語(yǔ)義聯(lián)系。針對(duì)傳統(tǒng)特征選擇方法在不平衡樣本分類上的不足,綜合考慮類別的分布因素以及特征在偏斜類別上的分布因素,對(duì)信息增益算法提出改進(jìn)。在新浪新聞?wù)Z料集上得到有效性驗(yàn)證后,將改進(jìn)的算法應(yīng)用在商品標(biāo)題語(yǔ)料中,實(shí)現(xiàn)網(wǎng)絡(luò)銷售市場(chǎng)的商品自動(dòng)分類。在獲取類目主題時(shí),引入了基于TextRank的關(guān)鍵詞提取算法,...
【文章來(lái)源】:溫州大學(xué)浙江省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型框架
圖3-1電商標(biāo)題語(yǔ)料采集框架??Figure?3-1?E-commerce?title?corpus?collection?framework??
圖4-5不平衡徉本類別間的F1?-score比較??Figure?4-5?Comparison?of?Fl-score?within?categories?of?skewed?corpus??
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[2]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[3]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[4]基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J]. 劉通. 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[5]基于最低詞頻CHI的特征選擇算法研究[J]. 肖雪,盧建云,余磊,龔恒. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[6]淺談云計(jì)算環(huán)境下大數(shù)據(jù)對(duì)電子商務(wù)的影響[J]. 周本海. 經(jīng)濟(jì)研究導(dǎo)刊. 2015(07)
[7]基于偏斜數(shù)據(jù)集的文本分類特征選擇方法研究[J]. 劉振巖,孟丹,王偉平,王勇. 中文信息學(xué)報(bào). 2014(02)
[8]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2013(09)
[9]一種基于互信息的改進(jìn)文本特征選擇[J]. 劉海峰,陳琦,張以皓. 計(jì)算機(jī)工程與應(yīng)用. 2012(25)
[10]一種基于概率加權(quán)的樸素貝葉斯分類[J]. 白似雪,梅君,吳穹,朱濤. 南昌大學(xué)學(xué)報(bào)(理科版). 2009(02)
碩士論文
[1]商品垃圾評(píng)論檢測(cè)系統(tǒng)的研究與應(yīng)用[D]. 唐世昊.電子科技大學(xué) 2017
[2]六種語(yǔ)言詞同現(xiàn)網(wǎng)絡(luò)中心節(jié)點(diǎn)研究[D]. 李萍.山東大學(xué) 2014
[3]基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D]. 左曉飛.西安電子科技大學(xué) 2013
本文編號(hào):3387344
【文章來(lái)源】:溫州大學(xué)浙江省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型框架
圖3-1電商標(biāo)題語(yǔ)料采集框架??Figure?3-1?E-commerce?title?corpus?collection?framework??
圖4-5不平衡徉本類別間的F1?-score比較??Figure?4-5?Comparison?of?Fl-score?within?categories?of?skewed?corpus??
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[2]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[3]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[4]基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J]. 劉通. 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[5]基于最低詞頻CHI的特征選擇算法研究[J]. 肖雪,盧建云,余磊,龔恒. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[6]淺談云計(jì)算環(huán)境下大數(shù)據(jù)對(duì)電子商務(wù)的影響[J]. 周本海. 經(jīng)濟(jì)研究導(dǎo)刊. 2015(07)
[7]基于偏斜數(shù)據(jù)集的文本分類特征選擇方法研究[J]. 劉振巖,孟丹,王偉平,王勇. 中文信息學(xué)報(bào). 2014(02)
[8]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2013(09)
[9]一種基于互信息的改進(jìn)文本特征選擇[J]. 劉海峰,陳琦,張以皓. 計(jì)算機(jī)工程與應(yīng)用. 2012(25)
[10]一種基于概率加權(quán)的樸素貝葉斯分類[J]. 白似雪,梅君,吳穹,朱濤. 南昌大學(xué)學(xué)報(bào)(理科版). 2009(02)
碩士論文
[1]商品垃圾評(píng)論檢測(cè)系統(tǒng)的研究與應(yīng)用[D]. 唐世昊.電子科技大學(xué) 2017
[2]六種語(yǔ)言詞同現(xiàn)網(wǎng)絡(luò)中心節(jié)點(diǎn)研究[D]. 李萍.山東大學(xué) 2014
[3]基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D]. 左曉飛.西安電子科技大學(xué) 2013
本文編號(hào):3387344
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3387344.html
最近更新
教材專著