天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于泛化信息和記憶信息的短文本分類研究

發(fā)布時間:2020-07-19 22:19
【摘要】:隨著互聯(lián)網(wǎng)的普及以及其硬件水平的快速更新,短文本的數(shù)量呈現(xiàn)爆炸式增長的趨勢,這種趨勢在用戶量巨大的社交網(wǎng)絡(luò)平臺上尤為明顯,例如Twitter、Facebook、微博等。這些社交軟件的用戶規(guī)模已經(jīng)達到數(shù)十億,尤其是活躍用戶的日常評論導(dǎo)致了短文本的規(guī)模不斷猛增。因此,迫切需要自動語言理解技術(shù)來處理和分析這些文本。在這些技術(shù)中,文本分類被證明是一種基本的,關(guān)鍵的,在各種場景中都很有用的自然語言處理任務(wù)方法,但是在字符個數(shù)較少的短文本中如何充分的利用其信息方法將在很大程度上影響短文本分類的準確度。目前,短文本分類的主流方法包括傳統(tǒng)機器學(xué)習(xí)文本分類方法和深度學(xué)習(xí)文本分類方法這倆種,傳統(tǒng)的機器學(xué)習(xí)方法中存在著文本表示高緯稀疏、特征工程復(fù)雜和分類器選擇的問題,這導(dǎo)致了短文本分的效果不理想。雖然深度學(xué)習(xí)方法在一定程度上解決了上述的這三個問題,但是其對文本局部相關(guān)性的信息利用也并不充分。基于上述的問題和需求,本文利用記憶信息的記錄已知信息的相關(guān)性和共現(xiàn)性的優(yōu)點以及泛化信息低緯稠密和可表現(xiàn)未知新特征的優(yōu)點,提出了基于泛化信息和記憶信息的短文本分類技術(shù)。通過在深度學(xué)習(xí)CNN模型上集成泛化信息和記憶信息提出了GM-CNN模型,GM-CNN較充分的利用文本信息,實驗中的結(jié)果也好于現(xiàn)有的一些基準模型。在提出了GM-CNN模型后,接著研究了GM-CNN模型中尚待優(yōu)化的一些問題。基于這些問題,利用批正則技術(shù)和一維分段最大化池化技術(shù)進行了改進,提出了IGM-CNN模型。實驗結(jié)果表明IGM-CNN比GM-CNN模型取得了更好的分類效果。同時也對分段最大化池化的段數(shù)大小進行了實驗,使得可以在保持模型較好分類效果的前提下最大程度的降低模型的參數(shù)數(shù)量和模型的復(fù)雜度。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
【圖文】:

序列,語言模型,神經(jīng)網(wǎng)絡(luò),單詞


位碩士研究生學(xué)位論文 第二邊的 n 表示從t n 1w 到tw 的 n 個單詞的序列,即為 個長必須滿足如下(2.5)和(2.6)的約束。0121 f(w,w,...,w,w)tttntn Viittntnf(V,w,...,w,w)11211 表示單詞 出現(xiàn)的概率需大于 0,公式(2.6)中的iV 表所有單詞出現(xiàn)的概率和為 1 的約束。直觀的模型結(jié)構(gòu)如

模型結(jié)構(gòu),語料


圖 2.2 CBOW 和 Skip-gram 模型結(jié)構(gòu)BOW 和 Skip-gram 模型的目標分別是下式(2.11)和(2.12)的進行最大化的對數(shù)似 wCL log pw|Contextw(2.1 wCL log pContext(w)|w(2.12.11)和(2.12)的 C 為語料集, w 為要預(yù)測的詞, Co n t e x wt 為 的上下文 Co n t exwt為條件概率。為了使得訓(xùn)練變得更加快速以及省時,Word2vec 做了如下 下面進行簡單的介紹。)層次 Softmax(Hierarchical Softmax)。次 Softmax 最早是在 2005 年由 Morin[30]引入到語言模型中,其思想是基于二叉樹讓雜的歸 化概率分解為條件概率的形式,來解決語料中有V 個詞( 很大)而不能ftmax 歸 化的問題。

階段,樸素貝葉斯,算法分類,準備工作


樸素貝葉斯算法分類的三個階段1)準備工作階段

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 崔帥;張慶林;代天恩;李文福;;記憶信息錯誤重組中熟悉性加工和回憶提取[J];寧波大學(xué)學(xué)報(教育科學(xué)版);2011年01期

2 席永濤;Delphi妙用INI文件記憶信息[J];電腦知識與技術(shù);2003年23期

3 莫毅易;記憶信息流與回憶信息流[J];情報雜志;2002年12期

4 李豫穎;范成賢;史開泉;;混合記憶信息與記憶信息篩選[J];系統(tǒng)工程與電子技術(shù);2011年08期

5 胡志安;羅芬蘭;;2019年覺醒睡眠研究:突破與展望[J];第三軍醫(yī)大學(xué)學(xué)報;2020年04期

6 趙中源;對記憶信息輸入規(guī)律的探索[J];綏化師專學(xué)報;2004年01期

7 周群芳;;高校記憶信息平臺建設(shè)理論與實踐[J];浙江工業(yè)大學(xué)學(xué)報(社會科學(xué)版);2015年02期

8 王金山;;別讓“記憶信息綜合征”套牢[J];科學(xué)養(yǎng)生;2010年02期

9 周群芳;傅東升;汪俊東;;論高校記憶工程框架下記憶信息資源建設(shè)路徑[J];蘭臺世界;2017年12期

10 梁少帥;邱滌珊;談群;;基于先驗知識與記憶信息的航跡關(guān)聯(lián)聚類算法[J];計算機應(yīng)用;2011年S2期

中國重要會議論文全文數(shù)據(jù)庫 前6條

1 洪昆輝;;論人腦長時記憶的動態(tài)變化及數(shù)學(xué)表達[A];中國思維科學(xué)研究論文選2011年專輯[C];2012年

2 陳琳;莫雷;;關(guān)于FOK在自然類別檢索中作用的實驗研究[A];第十屆全國心理學(xué)學(xué)術(shù)大會論文摘要集[C];2005年

3 孫俊才;高增明;;情緒賦值信息的定向遺忘效果[A];第十五屆全國心理學(xué)學(xué)術(shù)會議論文摘要集[C];2012年

4 洪昆輝;;論心理信息存貯的時間相關(guān)性原理及記憶的單位化模型[A];中國思維科學(xué)研究論文選2011年專輯[C];2012年

5 張琳;;情緒和呈現(xiàn)時間對記憶源檢測圖片偏向的影響[A];增強心理學(xué)服務(wù)社會的意識和功能——中國心理學(xué)會成立90周年紀念大會暨第十四屆全國心理學(xué)學(xué)術(shù)會議論文摘要集[C];2011年

6 羅良;林崇德;;空間工作記憶信息保持中的隨意注意和反射性注意:一項ERP研究[A];第十二屆全國心理學(xué)學(xué)術(shù)大會論文摘要集[C];2009年

中國重要報紙全文數(shù)據(jù)庫 前7條

1 記者 王艷紅;象棋大師與新手用腦不同[N];新華每日電訊;2001年

2 王心見;加實現(xiàn)細胞與芯片間信息交流[N];科技日報;2004年

3 河南省永城市條河鄉(xiāng)羅雙樓小學(xué) 高永華;談下對小學(xué)生“善于遺忘”問題應(yīng)如何處理[N];學(xué)知報;2011年

4 本報實習(xí)生 陳慧稚;手機,讓我們精疲力竭[N];文匯報;2010年

5 記者 秦勉;打造“阿凡達”:靈魂不滅的美夢[N];北京科技報;2012年

6 朱莉琪 中國科學(xué)院心理研究所博士生導(dǎo)師;國內(nèi)第一部有意遺忘研究的專著[N];中華讀書報;2013年

7 中國人民大學(xué)信息資源管理學(xué)院教授、人文北京研究中心主任、電子文件管理研究中心主任 馮惠玲;數(shù)字時代的記憶風(fēng)景[N];中國檔案報;2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 張帥;基于泛化信息和記憶信息的短文本分類研究[D];南京郵電大學(xué);2019年



本文編號:2763045

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2763045.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c56a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com