基于深度學(xué)習(xí)的文本質(zhì)量分析算法研究
發(fā)布時間:2021-02-17 15:05
在計(jì)算機(jī)網(wǎng)絡(luò)迅速發(fā)展的當(dāng)下,作為互聯(lián)網(wǎng)用戶的我們,被淹沒在海量的信息之中。文本信息是我們在網(wǎng)絡(luò)中觸接的最多信息之一。文本數(shù)據(jù)的信息質(zhì)量嚴(yán)重的影響著用戶獲取信息的速度和進(jìn)行決策的方向。僅僅依靠人力對互聯(lián)網(wǎng)上海量的文本數(shù)據(jù)進(jìn)行分析是不現(xiàn)實(shí)的,鮮有組織能夠承受如此巨大的人力資源損耗。因此,使用相應(yīng)的算法對文本的質(zhì)量進(jìn)行自動分析是具有非常的意義。與此同時,深度學(xué)習(xí)飛速發(fā)展,大量自然語言處理任務(wù)的深度學(xué)習(xí)解決方案都取得很好的效果;谏鲜隹紤],本論文進(jìn)行了對文本質(zhì)量分析任務(wù)的研究,并選擇使用深度學(xué)習(xí)的方法對該任務(wù)進(jìn)行解決。本論文設(shè)計(jì)了兩個方案從不同角度對該任務(wù)進(jìn)行解決。首先,本論文將文本質(zhì)量分析視為文本在質(zhì)量屬性上的分類問題。本論文提出使用面向類別改進(jìn)詞向量和膠囊記憶網(wǎng)絡(luò)對文本進(jìn)行質(zhì)量屬性上的分類。面向類別的改進(jìn)詞向量模型能夠有效的結(jié)合了文本語料集的類別信息,通過該方法訓(xùn)練得到的詞嵌入不僅能夠蘊(yùn)涵淺層語義信息,而且能夠引入對最終分類有用的文本類別信息。根據(jù)文本質(zhì)量任務(wù)的相關(guān)特點(diǎn),比如文本長度較長、特征模糊等。本論文設(shè)計(jì)的膠囊記憶網(wǎng)絡(luò)進(jìn)行文本的分類。該網(wǎng)絡(luò)以記憶網(wǎng)絡(luò)為框架,重新設(shè)計(jì)并構(gòu)建了外部記憶...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程圖
圖 2-2 CBOW 模型結(jié)構(gòu)圖藏層當(dāng)中,將所有上下文詞匯的向量進(jìn)行相加求平: = ( ) = ( 示輸入層的權(quán)重也就是詞嵌入查詢表(embedding獨(dú)立熱編碼的進(jìn)行表示的, 表C 代表上下文環(huán)境當(dāng)中詞匯的個數(shù)。將隱藏層中的神經(jīng)元的值 h 與權(quán)值矩陣 W′做點(diǎn)積 = 表示權(quán)值矩陣 W′的第 j 列向量。然后,將其結(jié)果測結(jié)果。預(yù)測結(jié)果是該段文字可能表示成為詞典中下:
第二章 相關(guān)理論基礎(chǔ) | = 上文中提到的隱藏層的輸入詞嵌入的加權(quán)表示,長am 模型 模型是 2013 年 Mikolov 在他的論文[41]中提出的。與ip-gram 模型的設(shè)計(jì)思路是中心目標(biāo)詞的詞向量可以匯的詞向量。因此,該模型網(wǎng)絡(luò)的目標(biāo)是針對輸入的的概率。Skip-gram 模型的網(wǎng)絡(luò)的結(jié)構(gòu)如圖 2-3。
【參考文獻(xiàn)】:
期刊論文
[1]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(04)
[2]新一代人工智能發(fā)展規(guī)劃[J]. 科技創(chuàng)新與生產(chǎn)力. 2017(08)
[3]基于文獻(xiàn)的舒肝解郁膠囊臨床應(yīng)用文本挖掘研究[J]. 濮正平,夏江明,謝巍,何金彩. 中國中藥雜志. 2017(17)
[4]基于雙線性函數(shù)注意力Bi-LSTM模型的機(jī)器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計(jì)算機(jī)科學(xué). 2017(S1)
[5]基于文本內(nèi)容特征選擇的評論質(zhì)量檢測[J]. 孟園,王洪偉. 現(xiàn)代圖書情報(bào)技術(shù). 2016(04)
[6]基于漢語篇章框架語義分析的閱讀理解問答研究[J]. 王智強(qiáng),李茹,梁吉業(yè),張旭華,武娟,蘇娜. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[7]面向不平衡數(shù)據(jù)的隱式篇章關(guān)系分類方法研究[J]. 朱珊珊,洪宇,丁思遠(yuǎn),姚建民,朱巧明. 中文信息學(xué)報(bào). 2015(06)
[8]中文篇章級句間關(guān)系自動分析[J]. 姬建輝,張牧宇,秦兵,劉挺. 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[9]中文篇章級句間語義關(guān)系識別[J]. 張牧宇,宋原,秦兵,劉挺. 中文信息學(xué)報(bào). 2013(06)
[10]基于樹核的隱式篇章關(guān)系識別[J]. 徐凡,朱巧明,周國棟. 軟件學(xué)報(bào). 2013(05)
碩士論文
[1]文本評論數(shù)據(jù)質(zhì)量分析方法研究[D]. 郭衛(wèi)麗.重慶大學(xué) 2016
本文編號:3038154
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程圖
圖 2-2 CBOW 模型結(jié)構(gòu)圖藏層當(dāng)中,將所有上下文詞匯的向量進(jìn)行相加求平: = ( ) = ( 示輸入層的權(quán)重也就是詞嵌入查詢表(embedding獨(dú)立熱編碼的進(jìn)行表示的, 表C 代表上下文環(huán)境當(dāng)中詞匯的個數(shù)。將隱藏層中的神經(jīng)元的值 h 與權(quán)值矩陣 W′做點(diǎn)積 = 表示權(quán)值矩陣 W′的第 j 列向量。然后,將其結(jié)果測結(jié)果。預(yù)測結(jié)果是該段文字可能表示成為詞典中下:
第二章 相關(guān)理論基礎(chǔ) | = 上文中提到的隱藏層的輸入詞嵌入的加權(quán)表示,長am 模型 模型是 2013 年 Mikolov 在他的論文[41]中提出的。與ip-gram 模型的設(shè)計(jì)思路是中心目標(biāo)詞的詞向量可以匯的詞向量。因此,該模型網(wǎng)絡(luò)的目標(biāo)是針對輸入的的概率。Skip-gram 模型的網(wǎng)絡(luò)的結(jié)構(gòu)如圖 2-3。
【參考文獻(xiàn)】:
期刊論文
[1]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(04)
[2]新一代人工智能發(fā)展規(guī)劃[J]. 科技創(chuàng)新與生產(chǎn)力. 2017(08)
[3]基于文獻(xiàn)的舒肝解郁膠囊臨床應(yīng)用文本挖掘研究[J]. 濮正平,夏江明,謝巍,何金彩. 中國中藥雜志. 2017(17)
[4]基于雙線性函數(shù)注意力Bi-LSTM模型的機(jī)器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計(jì)算機(jī)科學(xué). 2017(S1)
[5]基于文本內(nèi)容特征選擇的評論質(zhì)量檢測[J]. 孟園,王洪偉. 現(xiàn)代圖書情報(bào)技術(shù). 2016(04)
[6]基于漢語篇章框架語義分析的閱讀理解問答研究[J]. 王智強(qiáng),李茹,梁吉業(yè),張旭華,武娟,蘇娜. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[7]面向不平衡數(shù)據(jù)的隱式篇章關(guān)系分類方法研究[J]. 朱珊珊,洪宇,丁思遠(yuǎn),姚建民,朱巧明. 中文信息學(xué)報(bào). 2015(06)
[8]中文篇章級句間關(guān)系自動分析[J]. 姬建輝,張牧宇,秦兵,劉挺. 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[9]中文篇章級句間語義關(guān)系識別[J]. 張牧宇,宋原,秦兵,劉挺. 中文信息學(xué)報(bào). 2013(06)
[10]基于樹核的隱式篇章關(guān)系識別[J]. 徐凡,朱巧明,周國棟. 軟件學(xué)報(bào). 2013(05)
碩士論文
[1]文本評論數(shù)據(jù)質(zhì)量分析方法研究[D]. 郭衛(wèi)麗.重慶大學(xué) 2016
本文編號:3038154
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3038154.html
最近更新
教材專著