基于深度學(xué)習的社交媒體短文本分類研究
發(fā)布時間:2022-02-13 09:57
隨著社交網(wǎng)絡(luò)上活躍人群的增加,以及電子傳媒對傳統(tǒng)紙媒傳播領(lǐng)域的占據(jù),造成了社會人群習慣于通過較短篇幅的網(wǎng)站新聞獲取時訊,網(wǎng)絡(luò)信息變得細碎龐大。在社會急劇膨脹的信息量面前,由于高速的社會節(jié)奏,人們迫切需要精準地進行信息定位。另外,在一些面臨挑戰(zhàn)的社會時期,越快地定位信息方向類別,越能夠更快地接近現(xiàn)場,對避免災(zāi)難、獲得及時救助、實行援助等做出爭分奪秒的反應(yīng),提供以科技為支撐的解決辦法。此時在海量涌入的文字信息中,高效梳理出符合需求的求助、預(yù)警、緊急信息就成了重要的需求。在基于傳統(tǒng)算法的分本分類中,多是以統(tǒng)計的視角通過主題詞頻作為分類依據(jù),這種方式存在許多難以忽視的弊端:詞向量表示造成在后續(xù)處理中的向量空間維度爆炸;傳統(tǒng)機器學(xué)習方式需要人工對文本特征進行手動處理與標簽標注,并且這種標注的準確性無法保證;面對不均衡樣本無法通過數(shù)據(jù)切分保證數(shù)據(jù)平衡;劃分過程時間空間成本過高,在以迅速更新為特征的社交媒體文本的處理中損失了時效性。本文選擇新聞文本作為實驗數(shù)據(jù),將統(tǒng)計、詞向量主題模型、機器學(xué)習、深度學(xué)習的神經(jīng)網(wǎng)絡(luò)運用于短文本分類中,旨在增強各類算法對文本處理的可擴展性,提升文本分類時的特征提取利用效...
【文章來源】:華北水利水電大學(xué)河南省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程
2自然語言處理概述9圖2-1LDA模型結(jié)構(gòu)Fig.2-1StructureofLDAmodel模型下LDA的生成方式有一定的流程,首先生成主題分布時利用了Dirichlet分布,數(shù)學(xué)原理來源于二項分布:(+)=∑()=0(21)二項分布擴展到多項分布時候的概率分布公式為:(1,2,...;,1,2,...,)=!1!...!11…(22)當把二項分布延伸到共軛分布時的情況下形成β分布:(;,)=1(,)1(1)1(23)Dirichlet分布即為高緯度的β分布:(|)={1()∏1=1,∈[0,1]0,其他.(24)其中,()=∏()=1(∑=1),參數(shù)的取值范圍為1,2,…,≥0,∑=1=1,且1,2,…,>0.而LDA與簡單的Dirichlet多項式聚類模型并不完全一樣。在經(jīng)典的由兩層組成的聚類模型中,運用一次Dirichlet為一個語料庫進行抽樣,運用一個多項式聚類方式為語
2自然語言處理概述112.2.1卷積神經(jīng)網(wǎng)絡(luò)分類算法卷積神經(jīng)網(wǎng)絡(luò)作為包含多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),具有局部連接的特點使得在文本分類中得以考慮到分詞的上下文結(jié)構(gòu)與順序,而且其權(quán)值全局共享的內(nèi)部結(jié)構(gòu)能夠從短文本中發(fā)現(xiàn)更多的相對關(guān)系。基本構(gòu)成如下。圖2-2三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2-2Athree-layerneuralnetworkstructure卷積層主要類中得以考慮到分詞的上下文結(jié)構(gòu)與順序,而且其權(quán)值全局共享的內(nèi)部結(jié)構(gòu)能夠從短文本中一層接一層地接洽前一層傳遞來的特征訊息,利用一個特征核或者多個特征核并用進行卷積計算輸出,卷積的結(jié)果輸出可以合并為一個或者并行多個輸出。卷積核∈,其中,為該窗口的高,為詞向量維度,當分詞每次通過這樣一個窗口時就被轉(zhuǎn)化為對照的一個特征值,若這個特征值設(shè)為,則:=(:++)(28)其中,:+代表單詞序列從到+,每一個單詞被其表示,作為權(quán)重,偏置項設(shè)為,卷積使用的logistic函數(shù):()=11+(29)經(jīng)過運算得到卷積層輸出的特征圖,來到池化層完成采樣操作。池化層將特征圖劃分為等長等寬的小區(qū)域,通過滑動窗口進行掃描,在分類中選擇最大池化操作得到最具
【參考文獻】:
期刊論文
[1]基于深度學(xué)習的主題模型研究[J]. 黃佳佳,李鵬偉,彭敏,謝倩倩,徐超. 計算機學(xué)報. 2020(05)
[2]基于集對分析和GA-BP神經(jīng)網(wǎng)絡(luò)的地下水埋深預(yù)測研究[J]. 陳笑,胡宏祥,戚王月,周婷,夏萍. 華北水利水電大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[3]水資源承載力評價的Logistic集對分析模型及其應(yīng)用[J]. 劉童,楊曉華,宋帆. 華北水利水電大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[5]基于機器學(xué)習的災(zāi)難分類算法研究[J]. 孫晨,劉子航. 科技創(chuàng)新導(dǎo)報. 2018(27)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計算機工程. 2018(07)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[8]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[9]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報技術(shù). 2016(12)
[10]短文本理解研究[J]. 王仲遠,程健鵬,王海勛,文繼榮. 計算機研究與發(fā)展. 2016(02)
博士論文
[1]基于特征選擇的文本分類方法研究[D]. 胡小娟.吉林大學(xué) 2018
[2]基于深度學(xué)習的短文本分析與計算方法研究[D]. 李巖.北京科技大學(xué) 2016
[3]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及其應(yīng)用[D]. 戶保田.哈爾濱工業(yè)大學(xué) 2016
[4]短文本信息抽取若干技術(shù)研究[D]. 鄭立洲.中國科學(xué)技術(shù)大學(xué) 2016
[5]基于深度學(xué)習的文本向量化研究與應(yīng)用[D]. 于政.華東師范大學(xué) 2016
[6]短文本相似度計算在用戶交互式問答系統(tǒng)中的應(yīng)用[D]. 宋萬鵬.中國科學(xué)技術(shù)大學(xué) 2010
[7]短文本語言計算的關(guān)鍵技術(shù)研究[D]. 龔才春.中國科學(xué)院研究生院(計算技術(shù)研究所) 2008
碩士論文
[1]基于Attention-Based C-GRU模型的文本分類研究[D]. 楊東.北京交通大學(xué) 2018
[2]基于深度學(xué)習的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[3]基于長短時記憶網(wǎng)絡(luò)的多標簽文本分類[D]. 熊濤.浙江大學(xué) 2017
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[5]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
[6]基于深度學(xué)習的短文本語義相似度計算[D]. 陳曉陽.北京理工大學(xué) 2015
[7]基于LDA多模型中文短文本主題分類體系構(gòu)建與分類[D]. 郭劍飛.哈爾濱工業(yè)大學(xué) 2014
[8]搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D]. 梁萍.中國科學(xué)技術(shù)大學(xué) 2011
[9]基于短文本的分類算法研究[D]. 徐易.上海交通大學(xué) 2010
[10]互聯(lián)網(wǎng)短文本信息分類關(guān)鍵技術(shù)研究[D]. 柴春梅.上海交通大學(xué) 2009
本文編號:3622984
【文章來源】:華北水利水電大學(xué)河南省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程
2自然語言處理概述9圖2-1LDA模型結(jié)構(gòu)Fig.2-1StructureofLDAmodel模型下LDA的生成方式有一定的流程,首先生成主題分布時利用了Dirichlet分布,數(shù)學(xué)原理來源于二項分布:(+)=∑()=0(21)二項分布擴展到多項分布時候的概率分布公式為:(1,2,...;,1,2,...,)=!1!...!11…(22)當把二項分布延伸到共軛分布時的情況下形成β分布:(;,)=1(,)1(1)1(23)Dirichlet分布即為高緯度的β分布:(|)={1()∏1=1,∈[0,1]0,其他.(24)其中,()=∏()=1(∑=1),參數(shù)的取值范圍為1,2,…,≥0,∑=1=1,且1,2,…,>0.而LDA與簡單的Dirichlet多項式聚類模型并不完全一樣。在經(jīng)典的由兩層組成的聚類模型中,運用一次Dirichlet為一個語料庫進行抽樣,運用一個多項式聚類方式為語
2自然語言處理概述112.2.1卷積神經(jīng)網(wǎng)絡(luò)分類算法卷積神經(jīng)網(wǎng)絡(luò)作為包含多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),具有局部連接的特點使得在文本分類中得以考慮到分詞的上下文結(jié)構(gòu)與順序,而且其權(quán)值全局共享的內(nèi)部結(jié)構(gòu)能夠從短文本中發(fā)現(xiàn)更多的相對關(guān)系。基本構(gòu)成如下。圖2-2三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2-2Athree-layerneuralnetworkstructure卷積層主要類中得以考慮到分詞的上下文結(jié)構(gòu)與順序,而且其權(quán)值全局共享的內(nèi)部結(jié)構(gòu)能夠從短文本中一層接一層地接洽前一層傳遞來的特征訊息,利用一個特征核或者多個特征核并用進行卷積計算輸出,卷積的結(jié)果輸出可以合并為一個或者并行多個輸出。卷積核∈,其中,為該窗口的高,為詞向量維度,當分詞每次通過這樣一個窗口時就被轉(zhuǎn)化為對照的一個特征值,若這個特征值設(shè)為,則:=(:++)(28)其中,:+代表單詞序列從到+,每一個單詞被其表示,作為權(quán)重,偏置項設(shè)為,卷積使用的logistic函數(shù):()=11+(29)經(jīng)過運算得到卷積層輸出的特征圖,來到池化層完成采樣操作。池化層將特征圖劃分為等長等寬的小區(qū)域,通過滑動窗口進行掃描,在分類中選擇最大池化操作得到最具
【參考文獻】:
期刊論文
[1]基于深度學(xué)習的主題模型研究[J]. 黃佳佳,李鵬偉,彭敏,謝倩倩,徐超. 計算機學(xué)報. 2020(05)
[2]基于集對分析和GA-BP神經(jīng)網(wǎng)絡(luò)的地下水埋深預(yù)測研究[J]. 陳笑,胡宏祥,戚王月,周婷,夏萍. 華北水利水電大學(xué)學(xué)報(自然科學(xué)版). 2019(04)
[3]水資源承載力評價的Logistic集對分析模型及其應(yīng)用[J]. 劉童,楊曉華,宋帆. 華北水利水電大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[5]基于機器學(xué)習的災(zāi)難分類算法研究[J]. 孫晨,劉子航. 科技創(chuàng)新導(dǎo)報. 2018(27)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計算機工程. 2018(07)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[8]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[9]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報技術(shù). 2016(12)
[10]短文本理解研究[J]. 王仲遠,程健鵬,王海勛,文繼榮. 計算機研究與發(fā)展. 2016(02)
博士論文
[1]基于特征選擇的文本分類方法研究[D]. 胡小娟.吉林大學(xué) 2018
[2]基于深度學(xué)習的短文本分析與計算方法研究[D]. 李巖.北京科技大學(xué) 2016
[3]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及其應(yīng)用[D]. 戶保田.哈爾濱工業(yè)大學(xué) 2016
[4]短文本信息抽取若干技術(shù)研究[D]. 鄭立洲.中國科學(xué)技術(shù)大學(xué) 2016
[5]基于深度學(xué)習的文本向量化研究與應(yīng)用[D]. 于政.華東師范大學(xué) 2016
[6]短文本相似度計算在用戶交互式問答系統(tǒng)中的應(yīng)用[D]. 宋萬鵬.中國科學(xué)技術(shù)大學(xué) 2010
[7]短文本語言計算的關(guān)鍵技術(shù)研究[D]. 龔才春.中國科學(xué)院研究生院(計算技術(shù)研究所) 2008
碩士論文
[1]基于Attention-Based C-GRU模型的文本分類研究[D]. 楊東.北京交通大學(xué) 2018
[2]基于深度學(xué)習的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[3]基于長短時記憶網(wǎng)絡(luò)的多標簽文本分類[D]. 熊濤.浙江大學(xué) 2017
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[5]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
[6]基于深度學(xué)習的短文本語義相似度計算[D]. 陳曉陽.北京理工大學(xué) 2015
[7]基于LDA多模型中文短文本主題分類體系構(gòu)建與分類[D]. 郭劍飛.哈爾濱工業(yè)大學(xué) 2014
[8]搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D]. 梁萍.中國科學(xué)技術(shù)大學(xué) 2011
[9]基于短文本的分類算法研究[D]. 徐易.上海交通大學(xué) 2010
[10]互聯(lián)網(wǎng)短文本信息分類關(guān)鍵技術(shù)研究[D]. 柴春梅.上海交通大學(xué) 2009
本文編號:3622984
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3622984.html
最近更新
教材專著