海量學(xué)術(shù)資源的自動(dòng)分類應(yīng)用研究
發(fā)布時(shí)間:2021-06-14 06:22
隨著互聯(lián)網(wǎng)的興起和信息技術(shù)的高速發(fā)展,每年都有數(shù)以億計(jì)的學(xué)術(shù)資源誕生。這些數(shù)據(jù)在向人們傳遞海量信息的同時(shí),也給用戶查找以及使用這些資源造成了困擾——信息過(guò)載。伴隨而來(lái)的,人們獲取信息的方式發(fā)生了變化,由單純的“人找信息”轉(zhuǎn)變?yōu)椤八阉?推薦”的雙引擎模式。標(biāo)記數(shù)據(jù)的價(jià)值逐漸凸顯,對(duì)數(shù)據(jù)標(biāo)注的質(zhì)量要求也越來(lái)越高。文本是學(xué)術(shù)資源的主要呈現(xiàn)方式,作為分布最廣、數(shù)據(jù)量最大的信息載體,如何對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)、有效地組織和管理是亟待解決的難題。學(xué)科分類作為區(qū)分不同內(nèi)容學(xué)術(shù)資源的重要標(biāo)簽,給海量學(xué)術(shù)資源的組織、歸檔、檢索與推薦帶來(lái)了極大的幫助。因此,自動(dòng)化文本分類技術(shù)的研究顯得尤為重要,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。學(xué)術(shù)資源分類是依據(jù)學(xué)術(shù)數(shù)據(jù)的基本內(nèi)容,發(fā)掘一些與類別緊密關(guān)聯(lián)的特征和信息,將資源映射到具體類別的過(guò)程。傳統(tǒng)的機(jī)器學(xué)習(xí)方法高度依賴人為選擇的特征,泛化以及領(lǐng)域遷移能力較差。采用深度學(xué)習(xí)方法將特征工程融合于模型的構(gòu)建過(guò)程中,從而減少人為設(shè)計(jì)特征的不完備性和冗余是當(dāng)前的研究熱點(diǎn)。本文面向海量學(xué)術(shù)數(shù)據(jù),根據(jù)跨類型學(xué)術(shù)資源的基本特點(diǎn),分別設(shè)計(jì)了對(duì)應(yīng)的分類模型,包括基于雙向GRU網(wǎng)絡(luò)與注意力機(jī)制的文...
【文章來(lái)源】:寧波大學(xué)浙江省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
引言
1 緒論
1.1 文本分類研究背景
1.2 課題研究背景與意義
1.3 當(dāng)前面臨的問(wèn)題
1.4 論文的主要工作
1.5 論文的組織結(jié)構(gòu)
2 文本分類綜述
2.1 文本分類的發(fā)展歷程
2.2 文本分類概述
2.3 文本分類的關(guān)鍵技術(shù)
2.3.1 文本預(yù)處理
2.3.2 詞向量與文本表示
2.3.3 特征選擇
2.3.4 特征抽取
2.4 分類算法
2.5 深度學(xué)習(xí)與文本分類
2.5.1 卷積神經(jīng)網(wǎng)絡(luò)
2.5.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5.3 注意力機(jī)制
2.6 評(píng)價(jià)指標(biāo)
2.7 本章小結(jié)
3 基于BiGRU網(wǎng)絡(luò)與Attention機(jī)制的學(xué)術(shù)資源分類模型
3.1 GRU與 BiGRU
3.2 卷積層
3.3 注意力機(jī)制
3.4 Softmax層
3.5 基于注意力池化方法的專利標(biāo)題分類
3.6 實(shí)驗(yàn)
3.6.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
3.6.2 實(shí)驗(yàn)設(shè)計(jì)
3.6.3 實(shí)驗(yàn)結(jié)果與分析
3.7 本章小結(jié)
4 基于關(guān)鍵詞特征和卷積神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)資源分類模型
4.1 引入類別信息的CI-TFDF算法
4.2 基于CI-TFDF算法的文本分類
4.3 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)
4.3.1 輸入層的特征拼接結(jié)構(gòu)
4.3.2 最大-均值池化層
4.3.3 全連接層Maxout+Dropout
4.3.4 Softmax層
4.4 混合模型(Hybrid Model)
4.4.1 混合模型與文本分類
4.4.2 混合模型與關(guān)鍵詞抽取
4.4.3 詞性特征
4.5 實(shí)驗(yàn)
4.5.1 實(shí)驗(yàn)數(shù)據(jù)集
4.5.2 實(shí)驗(yàn)設(shè)計(jì)及評(píng)估指標(biāo)
4.5.3 實(shí)驗(yàn)結(jié)果與分析
4.6 本章小結(jié)
5 結(jié)論
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
在學(xué)研究成果
致謝
Abstract of Thesis
論文摘要
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬(wàn)龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[2]基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析[J]. 陳珂,梁斌,柯文德,許波,曾國(guó)超. 計(jì)算機(jī)研究與發(fā)展. 2018(05)
[3]基于LDA擴(kuò)展主題詞庫(kù)的主題爬蟲研究[J]. 費(fèi)晨杰,劉柏嵩. 計(jì)算機(jī)應(yīng)用與軟件. 2018(04)
[4]深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中梯度不穩(wěn)定現(xiàn)象研究綜述[J]. 陳建廷,向陽(yáng). 軟件學(xué)報(bào). 2018(07)
[5]基于主題增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的用戶興趣識(shí)別[J]. 杜雨萌,張偉男,劉挺. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[6]結(jié)合注意力機(jī)制的長(zhǎng)文本分類方法[J]. 盧玲,楊武,王遠(yuǎn)倫,雷子鑒,李瑩. 計(jì)算機(jī)應(yīng)用. 2018(05)
[7]面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 白琮,黃玲,陳佳楠,潘翔,陳勝勇. 軟件學(xué)報(bào). 2018(04)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 梁斌,劉全,徐進(jìn),周倩,章鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[9]跨類型的學(xué)術(shù)資源優(yōu)質(zhì)推薦算法研究[J]. 尹麗玲,劉柏嵩,王洋洋. 情報(bào)學(xué)報(bào). 2017(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
本文編號(hào):3229248
【文章來(lái)源】:寧波大學(xué)浙江省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
引言
1 緒論
1.1 文本分類研究背景
1.2 課題研究背景與意義
1.3 當(dāng)前面臨的問(wèn)題
1.4 論文的主要工作
1.5 論文的組織結(jié)構(gòu)
2 文本分類綜述
2.1 文本分類的發(fā)展歷程
2.2 文本分類概述
2.3 文本分類的關(guān)鍵技術(shù)
2.3.1 文本預(yù)處理
2.3.2 詞向量與文本表示
2.3.3 特征選擇
2.3.4 特征抽取
2.4 分類算法
2.5 深度學(xué)習(xí)與文本分類
2.5.1 卷積神經(jīng)網(wǎng)絡(luò)
2.5.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5.3 注意力機(jī)制
2.6 評(píng)價(jià)指標(biāo)
2.7 本章小結(jié)
3 基于BiGRU網(wǎng)絡(luò)與Attention機(jī)制的學(xué)術(shù)資源分類模型
3.1 GRU與 BiGRU
3.2 卷積層
3.3 注意力機(jī)制
3.4 Softmax層
3.5 基于注意力池化方法的專利標(biāo)題分類
3.6 實(shí)驗(yàn)
3.6.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
3.6.2 實(shí)驗(yàn)設(shè)計(jì)
3.6.3 實(shí)驗(yàn)結(jié)果與分析
3.7 本章小結(jié)
4 基于關(guān)鍵詞特征和卷積神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)資源分類模型
4.1 引入類別信息的CI-TFDF算法
4.2 基于CI-TFDF算法的文本分類
4.3 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)
4.3.1 輸入層的特征拼接結(jié)構(gòu)
4.3.2 最大-均值池化層
4.3.3 全連接層Maxout+Dropout
4.3.4 Softmax層
4.4 混合模型(Hybrid Model)
4.4.1 混合模型與文本分類
4.4.2 混合模型與關(guān)鍵詞抽取
4.4.3 詞性特征
4.5 實(shí)驗(yàn)
4.5.1 實(shí)驗(yàn)數(shù)據(jù)集
4.5.2 實(shí)驗(yàn)設(shè)計(jì)及評(píng)估指標(biāo)
4.5.3 實(shí)驗(yàn)結(jié)果與分析
4.6 本章小結(jié)
5 結(jié)論
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
在學(xué)研究成果
致謝
Abstract of Thesis
論文摘要
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬(wàn)龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[2]基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析[J]. 陳珂,梁斌,柯文德,許波,曾國(guó)超. 計(jì)算機(jī)研究與發(fā)展. 2018(05)
[3]基于LDA擴(kuò)展主題詞庫(kù)的主題爬蟲研究[J]. 費(fèi)晨杰,劉柏嵩. 計(jì)算機(jī)應(yīng)用與軟件. 2018(04)
[4]深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中梯度不穩(wěn)定現(xiàn)象研究綜述[J]. 陳建廷,向陽(yáng). 軟件學(xué)報(bào). 2018(07)
[5]基于主題增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的用戶興趣識(shí)別[J]. 杜雨萌,張偉男,劉挺. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[6]結(jié)合注意力機(jī)制的長(zhǎng)文本分類方法[J]. 盧玲,楊武,王遠(yuǎn)倫,雷子鑒,李瑩. 計(jì)算機(jī)應(yīng)用. 2018(05)
[7]面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 白琮,黃玲,陳佳楠,潘翔,陳勝勇. 軟件學(xué)報(bào). 2018(04)
[8]基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 梁斌,劉全,徐進(jìn),周倩,章鵬. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[9]跨類型的學(xué)術(shù)資源優(yōu)質(zhì)推薦算法研究[J]. 尹麗玲,劉柏嵩,王洋洋. 情報(bào)學(xué)報(bào). 2017(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
本文編號(hào):3229248
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3229248.html
最近更新
教材專著