微博文本的句向量表示及相似度計(jì)算方法研究
本文關(guān)鍵詞: 微博文本 相似度計(jì)算 詞向量 高維詞庫(kù) 句向量 出處:《計(jì)算機(jī)工程》2017年05期 論文類型:期刊論文
【摘要】:在Word2vec框架內(nèi),針對(duì)微博文本的特點(diǎn),提出采用詞向量或高維詞庫(kù)映射計(jì)算句向量的方法。以3種算法構(gòu)造句向量,即采用Word2vec對(duì)微博文本進(jìn)行擴(kuò)展后以TF-IDF方法表示句向量;將句子中每個(gè)詞的詞向量相加形成句向量;構(gòu)建高維詞庫(kù),將句子中的每個(gè)詞映射到高維詞庫(kù)形成句向量。對(duì)比3種訓(xùn)練句向量的方法,選出最適合微博領(lǐng)域的模型。實(shí)驗(yàn)結(jié)果表明,采用高維詞庫(kù)映射的方法對(duì)微博的句向量計(jì)算的效果最佳。
[Abstract]:In the framework of Word2vec, according to the characteristics of Weibo's text, a method of calculating sentence vector by word vector or high-dimensional lexicon mapping is put forward. Three kinds of algorithms are used to construct sentence vector, that is, the sentence vector is represented by TF-IDF method after the extension by Word2vec to Weibo's text. The word vector of each word in a sentence is added together to form a sentence vector; a high-dimensional lexicon is constructed, and each word in the sentence is mapped to a high-dimensional lexicon to form a sentence vector. The experimental results show that the method of high-dimensional lexicon mapping is the best method to calculate the sentence vector of Weibo.
【作者單位】: 北京信息科技大學(xué)智能信息處理研究所;
【基金】:國(guó)家自然科學(xué)基金(61370139) 北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國(guó);;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語(yǔ)句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤(rùn)梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期
6 田衛(wèi)東;強(qiáng)繼朋;;基于問(wèn)句類型的問(wèn)句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期
7 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書情報(bào)技術(shù);2007年06期
8 李偉;;中文語(yǔ)句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報(bào);2009年04期
9 蘭美輝;任友俊;徐堅(jiān);高煒;;k-部排序本體相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用;2012年04期
10 田文英;;基于本體的概念相似度計(jì)算研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年05期
相關(guān)會(huì)議論文 前10條
1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語(yǔ)義預(yù)測(cè)的雙語(yǔ)術(shù)語(yǔ)相似度計(jì)算[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語(yǔ)義相融合的詞語(yǔ)相似度計(jì)算[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
4 車萬(wàn)翔;劉挺;秦兵;李生;;面向雙語(yǔ)句對(duì)檢索的漢語(yǔ)句子相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
5 郭文宏;范學(xué)峰;;基于語(yǔ)義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
6 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
7 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
8 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
9 趙妍妍;秦兵;劉挺;張俐;蘇中;;基于多特征融合的句子相似度計(jì)算[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
10 張亮;尹存燕;陳家駿;;基于語(yǔ)義樹的中文詞語(yǔ)相似度計(jì)算與分析[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)博士學(xué)位論文 前4條
1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語(yǔ)新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤(rùn)志;基于語(yǔ)義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(沈陽(yáng)計(jì)算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動(dòng)問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動(dòng)?敝械牡妆就扑]探討[D];南京大學(xué);2015年
10 吐?tīng)栠d阿依·阿不來(lái)提;小學(xué)維吾爾語(yǔ)文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
,本文編號(hào):1536788
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1536788.html