基于Word2Vec的一種文檔向量表示
本文選題:TF-IDF + wordvec ; 參考:《計(jì)算機(jī)科學(xué)》2016年06期
【摘要】:在文本分類中,如何運(yùn)用word2vec詞向量高效地表達(dá)一篇文檔一直是一個(gè)難點(diǎn)。目前,將word2vec模型與聚類算法結(jié)合形成的doc2vec模型能有效地表達(dá)文檔信息。但是,這種方法很少考慮單個(gè)詞對(duì)整篇文檔的影響力。為了解決這個(gè)問(wèn)題,利用TF-IDF算法計(jì)算每篇文檔中詞的權(quán)重,并結(jié)合word2vec詞向量生成文檔向量,最后將其應(yīng)用于中文文檔分類。在搜狗中文語(yǔ)料庫(kù)上的實(shí)驗(yàn)驗(yàn)證了新方法的有效性。
[Abstract]:In text classification, how to express a document efficiently using the word2vec word vector is always a difficult point. At present, the doc2vec model which combines the word2vec model and the clustering algorithm can effectively express the document information. However, this method seldom considers the influence of the single word to the whole document. In order to solve this problem, the use of TF-ID The F algorithm calculates the weight of the word in each document and generates the document vector with the word2vec word vector, and finally applies it to the Chinese document classification. The experiment on the Chinese corpus of Sogou Chinese verifies the effectiveness of the new method.
【作者單位】: 西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院;
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 盧紅;;對(duì)檔案管理中的文檔分類技術(shù)應(yīng)用的分析[J];科技與企業(yè);2013年18期
2 周水庚,俞紅奇,胡江滔,付辛,胡運(yùn)發(fā);基于相鄰字對(duì)信息的中文文檔分類研究[J];小型微型計(jì)算機(jī)系統(tǒng);2001年04期
3 方加沛;黃戰(zhàn);;基于單類別文檔分類的主題爬蟲(chóng)[J];計(jì)算機(jī)工程與應(yīng)用;2010年16期
4 孟海東;劉小榮;;基于聚類分析的圖模型文檔分類[J];計(jì)算機(jī)應(yīng)用與軟件;2012年01期
5 姜鵬;許峰;戚榮志;;一種基于云平臺(tái)的防汛文檔智能生成模型構(gòu)建[J];水利信息化;2013年03期
6 周水庚,關(guān)佶紅,胡運(yùn)發(fā),周傲英;一個(gè)無(wú)需詞典支持和切詞處理的中文文檔分類系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2001年07期
7 王蘭富;;不同時(shí)間文檔分類有妙招[J];電腦迷;2005年13期
8 陳頻,王周敬;基于語(yǔ)義分析和外延匹配的文檔分類方法[J];福建電腦;2005年10期
9 周水庚,關(guān)佶紅,胡運(yùn)發(fā);無(wú)需詞典支持和切詞處理的中文文檔分類[J];高技術(shù)通訊;2001年03期
10 覃剛力;黃科;楊家本;;基于主動(dòng)學(xué)習(xí)的文檔分類[J];計(jì)算機(jī)科學(xué);2003年10期
相關(guān)會(huì)議論文 前4條
1 雷景生;康耀紅;;基于模糊相關(guān)的Web文檔分類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
2 胡江滔;周水庚;周傲英;;基于遺傳算法的中文WEB文檔分類研究[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
3 王自強(qiáng);孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2011年
4 陳峰;張欣;樂(lè)嘉錦;;EKS:XML文檔上的關(guān)鍵字查詢[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
相關(guān)重要報(bào)紙文章 前2條
1 ;管理您的信息[N];網(wǎng)絡(luò)世界;2001年
2 曉蕙;合肥協(xié)力儀表:CAXA提升設(shè)計(jì)開(kāi)發(fā)管理水平[N];科技日?qǐng)?bào);2008年
相關(guān)博士學(xué)位論文 前3條
1 古平;基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究[D];重慶大學(xué);2006年
2 譚琦;面向跨領(lǐng)域文檔分類的異構(gòu)遷移學(xué)習(xí)算法研究[D];華南理工大學(xué);2013年
3 蔡鵬;排序?qū)W習(xí)中的領(lǐng)域自適應(yīng)研究[D];華東師范大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 鄒亞R,
本文編號(hào):1858832
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1858832.html