天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文短文本分類方法的設(shè)計與實現(xiàn)

發(fā)布時間:2021-06-23 06:22
  近年來隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)出飛速增長的趨勢,其主要表現(xiàn)形式為短文本。如何從中找到有價值的信息并對其進行準確分類已成為學(xué)者們關(guān)注的焦點。短文本具有字數(shù)少,維度高等特性,無法照搬長文本分類方法。針對這些問題本文對短文本分類的相關(guān)技術(shù)展開研究。首先設(shè)計了短文本特征擴展算法STFE,使短文本的有效特征增多再進行分類其準確性有一定提升。然后提出CAS-CNN網(wǎng)絡(luò)結(jié)構(gòu),在詞向量層引入注意力機制,從不同角度豐富詞向量的特征,從而提升分類效果。具體研究工作有以下三點:(1)提出了短文本頻繁特征詞集挖掘算法SP-Apriori,解決了單機模式下Apriori算法挖掘頻繁特征詞集效率低的問題。該算法結(jié)合Spark的優(yōu)點,降低SP-Apriori算法執(zhí)行的時間并提高了挖掘頻繁特征詞集的效率。(2)提出了采用頻繁特征詞集的短文本特征擴展算法STFE,緩解了短文本特征不足的問題。首先采用SP-Apriori算法挖掘語料庫的頻繁特征詞集,篩選有效的關(guān)聯(lián)規(guī)則,接下來把部分關(guān)聯(lián)特征詞擴充到短文本中,使短文本的特征詞數(shù)量增多,為接下來分類任務(wù)增加了特征信息。(3)設(shè)計了新的網(wǎng)絡(luò)結(jié)構(gòu),提出引入注意力的卷積網(wǎng)... 

【文章來源】:北方工業(yè)大學(xué)北京市

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

中文短文本分類方法的設(shè)計與實現(xiàn)


圖2-1傳統(tǒng)的文本分類流程圖??

示意圖,模型,示意圖,詞語


布式表示法??慮了上述單詞表達方式的不足,詞語的分布式表達為短文本特新的思路。詞語的分布式表示稱作特征詞的詞向量。??布式表示方法最早由Hinton等人[27]提出的,其核心是經(jīng)過訓(xùn)每個詞向量能被看作是該空間上的坐標。根據(jù)每個坐標在空間算詞語或句子在語義上的相似度情況。??詞的分布式表達方法中應(yīng)用較廣泛的是神經(jīng)網(wǎng)絡(luò)詞語分布式?模型??模型起初由Bengio等人[28]首次公開提出。通過對計算目標詞間向量,詞向量維度可依據(jù)語料庫大小設(shè)定合適的值,其具體輸出層p(Wi:Wl,W2.?W.-l)

示意圖,模型,示意圖,前饋神經(jīng)網(wǎng)絡(luò)


?Wj-m-2?j?W5-I??圖2-2?NNLM模型示意圖??NNLM模型利用前饋神經(jīng)網(wǎng)絡(luò)建模目標語言。NNLM模型[29]的核心思想總??結(jié)為:??1.

【參考文獻】:
期刊論文
[1]基于MapReduce的樸素貝葉斯算法在新聞分類中的應(yīng)用[J]. 徐保鑫,懷麗波,崔榮一.  延邊大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[2]Spark平臺下的短文本特征擴展與分類研究[J]. 王雯,趙衎衎,李翠平,陳紅,孫輝.  計算機科學(xué)與探索. 2017(05)
[3]改進的頻繁詞集短文本特征擴展方法[J]. 馬慧芳,曾憲桃,李曉紅,朱志強.  計算機工程. 2016(10)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計算機科學(xué). 2016(06)
[5]MapReduce環(huán)境下支持大規(guī)模文本檢索的概念索引[J]. 張生,胡加靖.  計算機工程. 2015(07)
[6]一種基于頻繁詞集的短文本特征擴展方法[J]. 袁滿,歐陽元新,熊璋,羅建輝.  東南大學(xué)學(xué)報(自然科學(xué)版). 2014(02)
[7]一種基于壓縮矩陣的Apriori算法改進研究[J]. 羅丹,李陶深.  計算機科學(xué). 2013(12)
[8]基于維基百科的中文短文本分類研究[J]. 范云杰,劉懷亮.  現(xiàn)代圖書情報技術(shù). 2012(03)
[9]一種基于WordNet的短文本語義相似性算法[J]. 翟延冬,王康平,張東娜,黃嵐,周春光.  電子學(xué)報. 2012(03)
[10]利用上下位關(guān)系的中文短文本分類[J]. 王盛,樊興華,陳現(xiàn)麟.  計算機應(yīng)用. 2010(03)

碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的車輛屬性識別[D]. 徐博.北京理工大學(xué) 2016



本文編號:3244418

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3244418.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶297d5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com