基于深度學(xué)習(xí)的學(xué)術(shù)論文推薦研究
發(fā)布時間:2021-06-19 20:48
學(xué)術(shù)論文作為科研人員重要的學(xué)術(shù)資源之一,在整個科學(xué)研究過程起著至關(guān)重要的作用。進入互聯(lián)網(wǎng)時代后,每天都有大量學(xué)術(shù)論文被發(fā)表出來,學(xué)術(shù)論文迎來了爆發(fā)式增長,用戶面臨著日益嚴重的“論文信息過載”問題。針對這個問題,有研究者提出了學(xué)術(shù)論文推薦服務(wù)。學(xué)術(shù)論文推薦被認為是緩解“論文信息過載”的有效途徑之一,可以為用戶提供個性化論文推薦服務(wù),提高科研用戶效率。然而,傳統(tǒng)學(xué)術(shù)論文推薦方法在不同程度呈現(xiàn)一些弊端,無法生成令人滿意的推薦結(jié)果,亟待一種技術(shù)可以改進傳統(tǒng)學(xué)術(shù)論文推薦方法,提升論文推薦效果和用戶滿意度。深度學(xué)習(xí)技術(shù)作為機器學(xué)習(xí)的一個分支,近些年在自然語言處理、圖像識別、語音合成等領(lǐng)域取得巨大進展,受到了眾多研究者的關(guān)注。在此背景下,若能將深度學(xué)習(xí)技術(shù)融入學(xué)術(shù)論文推薦場景,勢必可以有效提升學(xué)術(shù)論文推薦效果。本文針對上述問題,展開了相關(guān)研究,主要的工作內(nèi)容總結(jié)如下:(1)通過文獻梳理了當下學(xué)術(shù)論文推薦研究現(xiàn)狀,發(fā)現(xiàn)傳統(tǒng)推薦方法普遍存在冷啟動和數(shù)據(jù)稀疏問題,無法有效預(yù)測用戶隱性評分,這將是本文的主要研究問題;隨后,梳理了推薦系統(tǒng)中常用的推薦方法、評估指標;(2)本文基于前人研究基礎(chǔ),設(shè)計并構(gòu)建了一個...
【文章來源】:南京航空航天大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
LSTM循環(huán)單元結(jié)構(gòu)圖
基于深度學(xué)習(xí)的學(xué)術(shù)論文推薦研究(1)Word2VecWord2Vec 是 Google 的 Mikolov 提出的,分別用到了前面提到的兩個分布式表示模型——Skip-gram 和 CBOW(如圖 2.2 所示)[81]。Google 后來將其開源,研究者可以免費使用,去訓(xùn)練百萬甚至上億條的數(shù)據(jù)集。其中 Skip-gram 主要是根據(jù)中心單詞 w 來預(yù)測它所在的句子語境的概率;而 CBOW 則是根據(jù)中心詞 w 所在的句子語境來預(yù)測中心單詞 w 的概率。CBOW 比較適合小規(guī)模數(shù)據(jù)集,而 Skip-gram 適合大規(guī)模數(shù)據(jù)集。
數(shù)據(jù)預(yù)處理主要負責對本文選擇的數(shù)據(jù)集進行初步處理操作,包括數(shù)據(jù)集劃分、停用詞移除、詞向量載入等操作,通過預(yù)處理操作,為后續(xù)實驗提供高質(zhì)量的數(shù)據(jù)集。(1)數(shù)據(jù)集劃分本文這里將按照慣用實驗數(shù)據(jù)集慣用的二八法則對數(shù)據(jù)集進行切分操作——即將 80%數(shù)據(jù)作為訓(xùn)練集、10%數(shù)據(jù)作為驗證集和 10%數(shù)據(jù)作為測試集,80%的數(shù)據(jù)用于模型訓(xùn)練和調(diào)優(yōu),10%的數(shù)據(jù)用于交叉驗證,10%的數(shù)據(jù)用于模型效果評估。(2)數(shù)據(jù)預(yù)處理為了提取每篇學(xué)術(shù)論文的內(nèi)容特征,本文進行如下的操作:① 合并論文標題和摘要得到論文文本信息 ,設(shè)置最大長度為 300,如果論文信息長度不足 300,則在后面采取慣用的零填充方法;若長度超過 300,則右側(cè)進行截斷操作;② 先去除停用詞,并且使用 TF-IDF 方法的選區(qū)出現(xiàn)排名靠前的 8000 個詞匯作為詞庫 V,最終得到每篇論文文本信息 ,處理完成后存儲到本地文件,每條記錄格式為:paper_id::text1|text2|text3(如圖 3.1 所示)。這里詞匯 TF-IDF 計算和停用詞處理使用了 scikit-learn開源包的提供的 TfidfVectorizer 和 CountVectorizer 方法;
【參考文獻】:
期刊論文
[1]融合Word2vec與時間因素的館藏學(xué)術(shù)論文推薦算法[J]. 陳長華,李小濤,鄒小筑,葉志鋒. 圖書館論壇. 2019(05)
[2]基于深度學(xué)習(xí)的論文個性化推薦算法[J]. 王妍,唐杰. 中文信息學(xué)報. 2018(04)
[3]基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J]. 黃立威,江碧濤,呂守業(yè),劉艷博,李德毅. 計算機學(xué)報. 2018(07)
[4]基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個性化推薦服務(wù)系統(tǒng)構(gòu)建[J]. 劉愛琴,李永清. 圖書館論壇. 2018(04)
[5]深度學(xué)習(xí)相關(guān)研究綜述[J]. 張軍陽,王慧麗,郭陽,扈嘯. 計算機應(yīng)用研究. 2018(07)
[6]跨類型的學(xué)術(shù)資源優(yōu)質(zhì)推薦算法研究[J]. 尹麗玲,劉柏嵩,王洋洋. 情報學(xué)報. 2017(07)
[7]融合相關(guān)性與多樣性的學(xué)術(shù)論文推薦方法研究[J]. 李響,譚靜. 情報理論與實踐. 2017(06)
[8]基于跨域協(xié)同的移動圖書館個性化推薦模型研究[J]. 李宇航,夏紹模,程華亮. 情報科學(xué). 2017(03)
[9]學(xué)術(shù)社交平臺論文推薦方法[J]. 湯志康,李春英,湯庸,黃泳航,蔡奕彬. 計算機與數(shù)字工程. 2017(02)
[10]MFWT:一種推薦學(xué)術(shù)論文的混合模型[J]. 盧美蓮,張正林,劉智超. 北京郵電大學(xué)學(xué)報. 2016(04)
博士論文
[1]基于信息需求變遷的時序引用文獻推薦技術(shù)研究[D]. 蔣卓人.大連海事大學(xué) 2015
碩士論文
[1]基于異構(gòu)圖的學(xué)術(shù)論文推薦系統(tǒng)[D]. 潘林林.南京大學(xué) 2015
[2]基于內(nèi)容與引用關(guān)系的學(xué)術(shù)論文推薦[D]. 蔡阿妮.華東師范大學(xué) 2014
[3]高質(zhì)量學(xué)術(shù)資源推薦方法的研究與實現(xiàn)[D]. 高潔.北京郵電大學(xué) 2014
[4]基于主題模型的學(xué)術(shù)論文推薦系統(tǒng)研究[D]. 黃澤明.大連海事大學(xué) 2013
本文編號:3238514
【文章來源】:南京航空航天大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
LSTM循環(huán)單元結(jié)構(gòu)圖
基于深度學(xué)習(xí)的學(xué)術(shù)論文推薦研究(1)Word2VecWord2Vec 是 Google 的 Mikolov 提出的,分別用到了前面提到的兩個分布式表示模型——Skip-gram 和 CBOW(如圖 2.2 所示)[81]。Google 后來將其開源,研究者可以免費使用,去訓(xùn)練百萬甚至上億條的數(shù)據(jù)集。其中 Skip-gram 主要是根據(jù)中心單詞 w 來預(yù)測它所在的句子語境的概率;而 CBOW 則是根據(jù)中心詞 w 所在的句子語境來預(yù)測中心單詞 w 的概率。CBOW 比較適合小規(guī)模數(shù)據(jù)集,而 Skip-gram 適合大規(guī)模數(shù)據(jù)集。
數(shù)據(jù)預(yù)處理主要負責對本文選擇的數(shù)據(jù)集進行初步處理操作,包括數(shù)據(jù)集劃分、停用詞移除、詞向量載入等操作,通過預(yù)處理操作,為后續(xù)實驗提供高質(zhì)量的數(shù)據(jù)集。(1)數(shù)據(jù)集劃分本文這里將按照慣用實驗數(shù)據(jù)集慣用的二八法則對數(shù)據(jù)集進行切分操作——即將 80%數(shù)據(jù)作為訓(xùn)練集、10%數(shù)據(jù)作為驗證集和 10%數(shù)據(jù)作為測試集,80%的數(shù)據(jù)用于模型訓(xùn)練和調(diào)優(yōu),10%的數(shù)據(jù)用于交叉驗證,10%的數(shù)據(jù)用于模型效果評估。(2)數(shù)據(jù)預(yù)處理為了提取每篇學(xué)術(shù)論文的內(nèi)容特征,本文進行如下的操作:① 合并論文標題和摘要得到論文文本信息 ,設(shè)置最大長度為 300,如果論文信息長度不足 300,則在后面采取慣用的零填充方法;若長度超過 300,則右側(cè)進行截斷操作;② 先去除停用詞,并且使用 TF-IDF 方法的選區(qū)出現(xiàn)排名靠前的 8000 個詞匯作為詞庫 V,最終得到每篇論文文本信息 ,處理完成后存儲到本地文件,每條記錄格式為:paper_id::text1|text2|text3(如圖 3.1 所示)。這里詞匯 TF-IDF 計算和停用詞處理使用了 scikit-learn開源包的提供的 TfidfVectorizer 和 CountVectorizer 方法;
【參考文獻】:
期刊論文
[1]融合Word2vec與時間因素的館藏學(xué)術(shù)論文推薦算法[J]. 陳長華,李小濤,鄒小筑,葉志鋒. 圖書館論壇. 2019(05)
[2]基于深度學(xué)習(xí)的論文個性化推薦算法[J]. 王妍,唐杰. 中文信息學(xué)報. 2018(04)
[3]基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J]. 黃立威,江碧濤,呂守業(yè),劉艷博,李德毅. 計算機學(xué)報. 2018(07)
[4]基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個性化推薦服務(wù)系統(tǒng)構(gòu)建[J]. 劉愛琴,李永清. 圖書館論壇. 2018(04)
[5]深度學(xué)習(xí)相關(guān)研究綜述[J]. 張軍陽,王慧麗,郭陽,扈嘯. 計算機應(yīng)用研究. 2018(07)
[6]跨類型的學(xué)術(shù)資源優(yōu)質(zhì)推薦算法研究[J]. 尹麗玲,劉柏嵩,王洋洋. 情報學(xué)報. 2017(07)
[7]融合相關(guān)性與多樣性的學(xué)術(shù)論文推薦方法研究[J]. 李響,譚靜. 情報理論與實踐. 2017(06)
[8]基于跨域協(xié)同的移動圖書館個性化推薦模型研究[J]. 李宇航,夏紹模,程華亮. 情報科學(xué). 2017(03)
[9]學(xué)術(shù)社交平臺論文推薦方法[J]. 湯志康,李春英,湯庸,黃泳航,蔡奕彬. 計算機與數(shù)字工程. 2017(02)
[10]MFWT:一種推薦學(xué)術(shù)論文的混合模型[J]. 盧美蓮,張正林,劉智超. 北京郵電大學(xué)學(xué)報. 2016(04)
博士論文
[1]基于信息需求變遷的時序引用文獻推薦技術(shù)研究[D]. 蔣卓人.大連海事大學(xué) 2015
碩士論文
[1]基于異構(gòu)圖的學(xué)術(shù)論文推薦系統(tǒng)[D]. 潘林林.南京大學(xué) 2015
[2]基于內(nèi)容與引用關(guān)系的學(xué)術(shù)論文推薦[D]. 蔡阿妮.華東師范大學(xué) 2014
[3]高質(zhì)量學(xué)術(shù)資源推薦方法的研究與實現(xiàn)[D]. 高潔.北京郵電大學(xué) 2014
[4]基于主題模型的學(xué)術(shù)論文推薦系統(tǒng)研究[D]. 黃澤明.大連海事大學(xué) 2013
本文編號:3238514
本文鏈接:http://sikaile.net/tushudanganlunwen/3238514.html