天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于神經(jīng)網(wǎng)絡(luò)的中文論文數(shù)據(jù)分析技術(shù)研究

發(fā)布時間:2021-10-05 05:22
  近年來,互聯(lián)網(wǎng)得到了十足的發(fā)展,網(wǎng)絡(luò)通訊傳輸技術(shù)也迅速發(fā)展,人們創(chuàng)造傳輸信息的能力大大增強(qiáng),網(wǎng)絡(luò)上充斥著越來越海量的各種虛擬信息和資源。傳統(tǒng)的文本分析技術(shù)在面對復(fù)雜海量的文本時越來越乏力。近年來,深度學(xué)習(xí)技術(shù)的發(fā)展使得人們對于數(shù)據(jù)的處理利用能力大大提升。本文在文本關(guān)鍵語句提取,分類,相似度計算幾個方面進(jìn)行了研究和探索,通過改進(jìn)并結(jié)合文本摘要提取技術(shù)和深度學(xué)習(xí)技術(shù)提出了一種有效的方案來進(jìn)行中文文本的分析處理。在文本關(guān)鍵語句提取方面,針對后續(xù)工作的需要和TF-IDF算法的缺陷,對其進(jìn)行了適當(dāng)?shù)母倪M(jìn),添加了DAC系數(shù)來衡量詞匯在類間的分布情況,使最終的權(quán)值能更好的衡量詞匯的重要程度,從而得到質(zhì)量更高文本摘要。借助word2vec技術(shù)提出了一種基于語義的相似度計算方案。訓(xùn)練skip-gram網(wǎng)絡(luò)來獲得詞的向量映射表,將詞匯向量化,之后結(jié)合詞匯的權(quán)值來構(gòu)建文本向量,再利用余弦距離公式來計算文本間的相似度。使用前文中通過文本摘要提取技術(shù)獲得的文本關(guān)鍵語句和詞向量映射表構(gòu)建網(wǎng)絡(luò)的輸入數(shù)據(jù)形式,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)完成長文本分類的任務(wù)并對本文所用的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了詳細(xì)的分析與說明。為了驗證方法的可行性和... 

【文章來源】:北方工業(yè)大學(xué)北京市

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)的中文論文數(shù)據(jù)分析技術(shù)研究


NNLM模型

模型圖,模型,向量,文本


第三章基于語義的中文文本相似度計算方法203.1.2word2vec技術(shù)的兩種模型Word2Vec技術(shù)可以將文本中的詞匯使用定長的向量表示出來,并且使得向量之間的關(guān)系可以在一定程度上反映出其對應(yīng)的詞匯之間的關(guān)系。長久以來人們都在尋找一個合理的方法來將詞表示為向量形式,一旦有一種合適的詞向量構(gòu)造方法可以勝任這個工作,就會為后續(xù)的文本處理工作提供極大的便利。針對上述問題,使用one-hot編碼詞是一種最直接的方案,向量的維度就是詞典包含的詞數(shù),這個詞在詞典中的位置就是向量中1的位置。但是這種過于直接的方式很容易就會導(dǎo)致維度的爆炸,過于稀疏的數(shù)據(jù)也十分的浪費(fèi)存儲空間。Word2Vec的思路就是讓模型根據(jù)訓(xùn)練語料自動挖掘詞語之間的關(guān)聯(lián)并構(gòu)造出合適的向量形式。Word2Vec的實現(xiàn)兩種方式:skip-gram和CBOW。CBOW模型也叫連續(xù)詞袋模型,但是它卻不同于傳統(tǒng)的詞袋模型,它是通過訓(xùn)練神經(jīng)網(wǎng)路來獲取詞向量的。簡單來說就是讓通過一個詞wt的前后k個詞來預(yù)測該詞,比如當(dāng)k=2時,輸入就是wt-2,wt-1,wt+1,wt+2,訓(xùn)練目標(biāo)是讓網(wǎng)絡(luò)正確的輸出wt。CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)圖下圖所示:圖3-2CBOW模型由上下文預(yù)測w(t)的計算公式為:wwwwwwwpcontextwpktktttktkttt),,...,,,...,,|()|(1111(3-5)CBOW模型與NNLM基礎(chǔ)理論相差不大,主要區(qū)別一方面是CBOW模型省去了

模型圖,模型,中心詞,向量


第三章基于語義的中文文本相似度計算方法21中間計算時較為復(fù)雜的隱層,在加速了訓(xùn)練的同時其性能也沒有受到明顯影響,另一方面CBOW在進(jìn)行詞的預(yù)測時使用的上下文的詞。CBOW模型的目標(biāo)是根據(jù)某個詞的周圍詞來對這個詞進(jìn)行預(yù)測。例如,對于句子“中國人民實在太團(tuán)結(jié)了”,預(yù)測實在這個詞時,可以使用中國、人民、太、團(tuán)結(jié)這四個詞,它們構(gòu)成了實在的上下文。按照這個方法就可以得到一系列的訓(xùn)練樣本。之后通過不斷的迭代計算,調(diào)整參數(shù),當(dāng)整個神經(jīng)網(wǎng)絡(luò)趨于穩(wěn)定的時候就是完成了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。對于已經(jīng)訓(xùn)練好的網(wǎng)絡(luò),隱藏層的權(quán)重矩陣就是所需的詞向量映射表。Skip-gram模型和CBOW模型相反,是通過一個中心詞wt,來預(yù)測該中心詞的前后k個詞,比如當(dāng)k=1時,輸入就是wt,訓(xùn)練目標(biāo)是讓網(wǎng)絡(luò)可以正確輸出wt-1,wt+1。在一定范圍內(nèi),k越大,訓(xùn)練時使用的信息就越豐富,相應(yīng)的訓(xùn)練出的詞向量質(zhì)量也越高,但是相對的計算復(fù)雜度也會大大增加,時間開銷增大。Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示。圖3-3Skip-gram模型Skip-gram模型的訓(xùn)練時間要比CBOW模型長,因為CBOW模型在訓(xùn)練時是以一個中心詞為基準(zhǔn)來進(jìn)行反向傳播來調(diào)整其周圍的詞,而Skip-gram模型在訓(xùn)練時是用中心詞前后的多個詞匯為基準(zhǔn)來共同調(diào)整該中心詞。也正因為如此,在性能方面一般情況下也是后者的表現(xiàn)好一些。3.1.3word2vec技術(shù)的優(yōu)勢和特點(diǎn)通過word2vec技術(shù)的得到的詞向量相較于傳統(tǒng)的模型,一方面不會存在維度爆炸的問題,可以根據(jù)需求調(diào)整詞向量的維度,另一方面通過大量語料的訓(xùn)練

【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平.  計算機(jī)科學(xué). 2018(07)
[2]面向?qū)崟r數(shù)據(jù)流的差分隱私直方圖發(fā)布技術(shù)[J]. 楊庚,夏春婷,白云璐.  南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[3]面向時間序列的微博話題演化模型研究[J]. 王振飛,劉凱莉,鄭志蘊(yùn),王飛.  計算機(jī)科學(xué). 2017(08)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]基于多層類別主題圖模型的教育文本分類方法[J]. 李全.  計算機(jī)與現(xiàn)代化. 2016(07)
[6]基于word2vec和SVMperf的中文評論情感分類研究[J]. 張冬雯,楊鵬飛,許云峰.  計算機(jī)科學(xué). 2016(S1)
[7]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動抽取研究[J]. 姜霖,王東波.  現(xiàn)代圖書情報技術(shù). 2016(02)
[8]改進(jìn)屬性獨(dú)立的加權(quán)樸素貝葉斯分類測試算法[J]. 李雪蓮.  電子質(zhì)量. 2015(08)
[9]一種基于類別描述的TF-IDF特征選擇方法的改進(jìn)[J]. 徐冬冬,吳韶波.  現(xiàn)代圖書情報技術(shù). 2015(03)
[10]Word2vec的工作原理及應(yīng)用探究[J]. 周練.  科技情報開發(fā)與經(jīng)濟(jì). 2015(02)

碩士論文
[1]問答系統(tǒng)中答案選擇算法研究[D]. 朱林風(fēng).北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的自然場景門牌多數(shù)字識別[D]. 鐘菊萍.廣東技術(shù)師范大學(xué) 2019
[3]基于視覺的道路障礙物檢測算法及其增強(qiáng)現(xiàn)實應(yīng)用[D]. 權(quán)鴻斌.福州大學(xué) 2018
[4]一個面向工作的智能化溝通平臺的研究和開發(fā)[D]. 趙子鑫.浙江大學(xué) 2018
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類[D]. 刁夏凝.哈爾濱工程大學(xué) 2017
[6]中文文本分類中卡方統(tǒng)計特征選擇方法和TF-IDF權(quán)重計算方法的研究[D]. 姚海英.吉林大學(xué) 2016
[7]基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D]. 任倚天.北京理工大學(xué) 2016
[8]基于編輯距離的字符串模式匹配算法研究[D]. 王春雨.燕山大學(xué) 2015
[9]卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D]. 李飛騰.大連理工大學(xué) 2014
[10]樸素貝葉斯分類模型的改進(jìn)研究[D]. 朱曉丹.廈門大學(xué) 2014



本文編號:3419081

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3419081.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶732f0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩三极片在线免费播放| 欧美日韩在线第一页日韩| 日本丁香婷婷欧美激情| 熟女一区二区三区国产| 国产成人精品资源在线观看| 亚洲午夜福利视频在线| 欧洲一区二区三区蜜桃| 国产精品久久精品国产| 精品日韩国产高清毛片| 日本精品免费在线观看| 精品欧美国产一二三区| 深夜视频在线观看免费你懂| 日本99精品在线观看| 黄色国产一区二区三区| 亚洲欧美日韩国产综合在线| 人人妻人人澡人人夜夜| 久久午夜福利精品日韩| 欧美一本在线免费观看| 国产熟女高清一区二区| 日本女优一区二区三区免费| 丰满熟女少妇一区二区三区| 丰满熟女少妇一区二区三区| 麻豆印象传媒在线观看| 久久本道综合色狠狠五月| 人妻中文一区二区三区| 久久精品国产亚洲av麻豆尤物| 老司机精品国产在线视频| 久久99午夜福利视频| 日韩欧美国产精品中文字幕| 91爽人人爽人人插人人爽| 人妻少妇系列中文字幕| 亚洲国产成人一区二区在线观看| 成人日韩在线播放视频| 一区二区日韩欧美精品| 久久精品视频就在久久| 国产精品日韩精品一区| 久久婷婷综合色拍亚洲| 欧美在线观看视频免费不卡| 国产又粗又黄又爽又硬的| 久久99爱爱视频视频| 深夜日本福利在线观看|