基于word2vec和LSTM的飲食健康文本分類研究
本文選題:文本分類 + wordvec。 參考:《農業(yè)機械學報》2017年10期
【摘要】:為了對飲食文本信息高效分類,建立一種基于word2vec和長短期記憶網絡(Long-short term memory,LSTM)的分類模型。針對食物百科和飲食健康文本特點,首先利用word2vec實現包含語義信息的詞向量表示,并解決了傳統方法導致數據表示稀疏及維度災難問題,基于K-means++根據語義關系聚類以提高訓練數據質量。由word2vec構建文本向量作為LSTM的初始輸入,訓練LSTM分類模型,自動提取特征,進行飲食宜、忌的文本分類。實驗采用48 000個文檔進行測試,結果顯示,分類準確率為98.08%,高于利用tf-idf、bag-of-words等文本數值化表示方法以及基于支持向量機(Support vector machine,SVM)和卷積神經網絡(Convolutional neural network,CNN)分類算法結果。實驗結果表明,利用該方法能夠高質量地對飲食文本自動分類,幫助人們有效地利用健康飲食信息。
[Abstract]:In order to efficiently classify diet text information, a classification model based on word2vec and Long-short term memory (LSTM) was established.In view of the characteristics of food encyclopedia and healthy diet text, a word vector representation containing semantic information is implemented by using word2vec, and the problems of sparse data representation and dimensionality disaster caused by traditional methods are solved.In order to improve the quality of training data based on K-means clustering according to semantic relations.The text vector was constructed by word2vec as the initial input of LSTM, the LSTM classification model was trained, the feature was extracted automatically, and the text classification with proper diet and taboo was carried out.The experimental results show that the classification accuracy is 98.08, which is higher than that of the text numerical representation method such as tf-idffbag-of-words, support vector machine (SVM) and convolutional neural network (CNN) classification algorithm based on support vector machine (SVM) and convolutional neural network (CNN).The experimental results show that this method can automatically classify the text of diet with high quality and help people to use healthy diet information effectively.
【作者單位】: 中國農業(yè)大學信息與電氣工程學院;公安部第三研究所;
【基金】:信息網絡安全公安部重點實驗室開放課題項目(61503386)
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應用;1995年02期
2 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期
3 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
4 趙鋼;;從復雜文本中導入數據的方法[J];中國審計;2007年18期
5 易樹鴻;張為群;;一種基于粗集的文本數據特征信息的挖掘方法[J];計算機科學;2002年08期
6 李建中,楊艷,張艷秋;并行文本管理原型系統PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期
7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網絡安全技術與應用;2009年03期
8 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期
9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
10 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期
相關會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數據庫學術會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數據處理[A];1997中國控制與決策學術年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關聯規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數據庫學術會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年
9 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
10 侯松;周斌;賈焰;;分詞結果的再搭配對文本分類效果的增強[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年
相關重要報紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
相關博士學位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年
3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年
4 韓磊;漢語句義結構模型分析及其文本表示方法研究[D];北京理工大學;2016年
5 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學;2015年
6 胡卉芪;空間文本數據的量質融合與推送[D];清華大學;2016年
7 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學 ;2009年
8 孫曉華;基于聚類的文本機會發(fā)現關鍵問題研究[D];哈爾濱工程大學;2010年
9 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
相關碩士學位論文 前10條
1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現[D];南京信息工程大學;2015年
2 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年
3 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年
4 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年
5 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年
6 陳紅陽;中文微博話題發(fā)現技術研究[D];重慶理工大學;2015年
7 王s,
本文編號:1767473
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1767473.html