天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

結(jié)合語義擴(kuò)展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法

發(fā)布時(shí)間:2018-12-25 17:06
【摘要】:中文新聞標(biāo)題通常包含一個(gè)或幾十個(gè)詞,由于字符數(shù)少、特征稀疏,在分類問題中難以提升正確率。為解決此問題,提出了基于Word Embedding的文本語義擴(kuò)展方法。首先,將新聞標(biāo)題擴(kuò)展為(標(biāo)題、副標(biāo)題、主題詞)構(gòu)成的三元組,用標(biāo)題的同義詞結(jié)合詞性過濾方法構(gòu)造副標(biāo)題,對(duì)多尺度滑動(dòng)窗口內(nèi)的詞進(jìn)行語義組合,提取主題詞;然后,針對(duì)擴(kuò)展文本構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類模型,該模型通過max pooling及隨機(jī)dropout進(jìn)行特征過濾及防止過擬合;最后,將標(biāo)題、副標(biāo)題拼接為雙詞表示,與多主題詞集分別作為模型的輸入。在2017自然語言處理與中文計(jì)算評(píng)測(NLPCC2017)的新聞標(biāo)題分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,用三元組擴(kuò)展結(jié)合相應(yīng)的CNN模型在18個(gè)類別新聞標(biāo)題上分類的正確率為79.42%,比未經(jīng)擴(kuò)展的CNN模型提高了9.5%,且主題詞擴(kuò)展加快了模型的收斂速度,驗(yàn)證了三元組擴(kuò)展方法及所構(gòu)建CNN分類模型的有效性。
[Abstract]:Chinese news headlines usually contain one or dozens of words. Because of the small number of characters and sparse features, it is difficult to improve the accuracy in classification problems. To solve this problem, a text semantic extension method based on Word Embedding is proposed. Firstly, the news title is extended to a triple (title, subtitle, subject word). The subtitle is constructed by the synonym of the title combined with the method of part of speech filtering, and the words in the multi-scale sliding window are semantically combined to extract the subject word. Then, the (CNN) classification model of convolution neural network is constructed for extended text. The model uses max pooling and random dropout to filter features and prevent over-fitting. Finally, the title and subtitle are spliced into two-word representation, and the multi-subject word set is used as the input of the model. Experiments were carried out on the 2017 Natural language processing and Chinese Computational Evaluation (NLPCC2017) news headline classification data set. The experimental results show that the correct rate of classifying with triple extension and corresponding CNN model on 18 categories of news headlines is 79.42, which is 9.5% higher than that of unexpanded CNN model, and the speed of convergence of the model is accelerated by the expansion of subject words. The validity of the triple extension method and the constructed CNN classification model is verified.
【作者單位】: 重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;
【基金】:國家社會(huì)科學(xué)基金西部項(xiàng)目(17XXW005) 重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJ1500903)~~
【分類號(hào)】:TP183;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 萬靜;王文聰;易軍凱;;一種基于本體的知識(shí)庫語義擴(kuò)展搜索方法[J];計(jì)算機(jī)工程;2012年06期

2 曠章輝;王甲海;周雅蘭;;用改進(jìn)的競爭Hopfield神經(jīng)網(wǎng)絡(luò)求解多邊形近似問題[J];計(jì)算機(jī)科學(xué);2009年03期

3 高永建 ,吳健康;神經(jīng)網(wǎng)絡(luò)及其識(shí)別應(yīng)用簡介[J];電信科學(xué);1990年02期

4 謝國梁;;神經(jīng)網(wǎng)絡(luò):從希望到現(xiàn)實(shí)[J];激光與光電子學(xué)進(jìn)展;1991年01期

5 鄭士貴;文獻(xiàn)自動(dòng)閱讀神經(jīng)網(wǎng)絡(luò)[J];管理科學(xué)文摘;1996年08期

6 呂芬;趙生妹;;基于Hopfield神經(jīng)網(wǎng)絡(luò)的噪聲字母識(shí)別[J];計(jì)算機(jī)與信息技術(shù);2005年12期

7 李毅;童紅俊;宋貴寶;李冬;;神經(jīng)網(wǎng)絡(luò)在飛行器航跡仿真計(jì)算中的應(yīng)用[J];海軍航空工程學(xué)院學(xué)報(bào);2006年05期

8 林鋼;;基于SOM神經(jīng)網(wǎng)絡(luò)對(duì)潛在客戶的挖掘[J];南寧職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年04期

9 楊帆;陳勁杰;唐梅華;陳鑫;;簡論神經(jīng)網(wǎng)絡(luò)在搜索中的應(yīng)用[J];機(jī)械管理開發(fā);2008年01期

10 朱紅斌;;LVQ神經(jīng)網(wǎng)絡(luò)在交通事件檢測中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年34期

相關(guān)會(huì)議論文 前10條

1 陳文新;王長富;戴蓓倩;;基于神經(jīng)網(wǎng)絡(luò)的漢語四聲識(shí)別[A];第一屆全國語言識(shí)別學(xué)術(shù)報(bào)告與展示會(huì)論文集[C];1990年

2 李睿;李明軍;;一種模糊高斯基神經(jīng)網(wǎng)絡(luò)在數(shù)值逼近上的仿真[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊)[C];2006年

3 許旭萍;臧道青;;采用Hopfield神經(jīng)網(wǎng)絡(luò)實(shí)施缸蓋表面點(diǎn)陣字符識(shí)別[A];第十五屆全國汽車檢測技術(shù)年會(huì)論文集[C];2011年

4 朱長春;;神經(jīng)網(wǎng)絡(luò)用于線性時(shí)固有系統(tǒng)的廣義狀態(tài)轉(zhuǎn)移矩陣的識(shí)別[A];中國工程物理研究院科技年報(bào)(1999)[C];1999年

5 王玉斌;李永明;王穎;;用數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測工程造價(jià)[A];第十一屆全國電工數(shù)學(xué)學(xué)術(shù)年會(huì)論文集[C];2007年

6 應(yīng)捷;袁一方;;神經(jīng)網(wǎng)絡(luò)指紋特征點(diǎn)匹配算法的改進(jìn)[A];2007'中國儀器儀表與測控技術(shù)交流大會(huì)論文集(二)[C];2007年

7 謝小良;符卓;;基于Hopfield神經(jīng)網(wǎng)絡(luò)的單周期船舶調(diào)度模型及算法[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2008年

8 陳意;;神經(jīng)網(wǎng)絡(luò)在船舶識(shí)別一個(gè)應(yīng)用[A];船舶航泊安全的新經(jīng)驗(yàn)新技術(shù)論文集(上冊)[C];2007年

9 王輝;楊杰;黎明;蔡念;;一種基于神經(jīng)網(wǎng)絡(luò)的圖像復(fù)原方法[A];2006年全國光電技術(shù)學(xué)術(shù)交流會(huì)會(huì)議文集(D 光電信息處理技術(shù)專題)[C];2006年

10 賈睿;徐啟強(qiáng);劉艷;;基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)殼結(jié)構(gòu)近似分析研究[A];第二十一屆全國振動(dòng)與噪聲高技術(shù)及應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

相關(guān)重要報(bào)紙文章 前1條

1 中國科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年

相關(guān)博士學(xué)位論文 前10條

1 李曉剛;基于神經(jīng)網(wǎng)絡(luò)的碼垛機(jī)器人視覺位姿測量及伺服控制研究[D];北京林業(yè)大學(xué);2015年

2 戶保田;基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及其應(yīng)用[D];哈爾濱工業(yè)大學(xué);2016年

3 沈旭;基于序列深度學(xué)習(xí)的視頻分析:建模表達(dá)與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2017年

4 諸勇;正交回歸神經(jīng)網(wǎng)絡(luò)及其在控制系統(tǒng)中的應(yīng)用[D];浙江大學(xué);1998年

5 李彥冬;基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2017年

6 包姣;基于深度神經(jīng)網(wǎng)絡(luò)的回歸模型及其應(yīng)用研究[D];電子科技大學(xué);2017年

7 田景文;地下油藏的仿真與預(yù)測[D];哈爾濱工程大學(xué);2001年

8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識(shí)別應(yīng)用研究[D];南京航空航天大學(xué);2002年

9 王吉權(quán);BP神經(jīng)網(wǎng)絡(luò)的理論及其在農(nóng)業(yè)機(jī)械化中的應(yīng)用研究[D];沈陽農(nóng)業(yè)大學(xué);2011年

10 王鑫;基于表示學(xué)習(xí)的情感分析關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 沈連花;英語“go”與朝鮮語“kada”的語義擴(kuò)展對(duì)比分析[D];延邊大學(xué);2016年

2 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年

3 蔡邦宇;人臉識(shí)別中單次ERP時(shí)空特征分析及其快速檢索的應(yīng)用[D];浙江大學(xué);2015年

4 鄭川;垃圾評(píng)論檢測算法的研究[D];西南交通大學(xué);2015年

5 汪濟(jì)民;基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測和性別識(shí)別研究[D];南京理工大學(xué);2015年

6 彭玲玲;基于不確定理論與機(jī)器學(xué)習(xí)的行人檢測[D];長安大學(xué);2015年

7 楊陳東;BP-Fisher判別分析法[D];長安大學(xué);2015年

8 孟鑫;基于Hadoop云平臺(tái)下的客流量預(yù)測研究[D];長安大學(xué);2015年

9 張勇;深度卷積神經(jīng)網(wǎng)絡(luò)在車牌和人臉檢測領(lǐng)域的應(yīng)用研究[D];鄭州大學(xué);2015年

10 宋璐璐;財(cái)經(jīng)職業(yè)技術(shù)學(xué)院票務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安工業(yè)大學(xué);2015年

,

本文編號(hào):2391402

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2391402.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c310d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com