基于語義相似度的學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法改進(jìn)
發(fā)布時間:2021-04-06 23:02
引文網(wǎng)絡(luò)是一種以科技文獻(xiàn)為節(jié)點,文獻(xiàn)之間的引用關(guān)系為邊所形成的一種網(wǎng)絡(luò),是知識發(fā)現(xiàn)領(lǐng)域使用最多的重要工具之一,引文網(wǎng)絡(luò)屬于復(fù)雜網(wǎng)絡(luò)的一個分支,具有復(fù)雜網(wǎng)絡(luò)的一般性特征,比如小世界、集聚性等。引文網(wǎng)絡(luò)是科研人員用來進(jìn)行學(xué)科預(yù)測和評估熱點領(lǐng)域的一種工具,最初并不涉及文本的研究,隨著人工智能的發(fā)展,文本數(shù)據(jù)作為重要的信息來源之一,在引文網(wǎng)絡(luò)中引入文本屬性已經(jīng)變成可能,但由于文獻(xiàn)篇幅通常較長,對每一篇文獻(xiàn)的全部內(nèi)容進(jìn)行文本分析往往效率低下而且并無必要。學(xué)術(shù)文獻(xiàn)具有結(jié)構(gòu)規(guī)范,特征清晰的特點,僅標(biāo)題、摘要和關(guān)鍵詞就可以了解文章大致主題,所以對引文網(wǎng)絡(luò)進(jìn)行文本分析時,只需要利用上述三者組成的文本作為文獻(xiàn)的文本屬性即可獲得文章的主題信息。對引文網(wǎng)絡(luò)進(jìn)行文本特征分析時,使用的是標(biāo)題、摘要和關(guān)鍵詞組成的短文本,由于短文本的詞匯矩陣稀疏性,傳統(tǒng)的BOW+TFIDF+VSM/LSA體系和神經(jīng)網(wǎng)絡(luò)模型在分析引文網(wǎng)絡(luò)的文本特征時效果并不理想;诖,結(jié)合文本挖掘和社區(qū)發(fā)現(xiàn)技術(shù),本文提出一種基于語義相似度的引文網(wǎng)絡(luò)模型,以文檔之間的語義關(guān)系以及引文之間的引用關(guān)系為基礎(chǔ),結(jié)合詞匯在文檔中的位置關(guān)系和結(jié)構(gòu),構(gòu)建基于詞匯...
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
社區(qū)示意圖
濟(jì)南大學(xué)碩士學(xué)位論文19圖2.2word2vec訓(xùn)練過程示意圖在上圖中,目標(biāo)詞匯的上下文單詞的One-Hot模型作為輸入數(shù)據(jù),假設(shè)目標(biāo)詞匯的維度為V,以C為半徑,即上下文單詞各為C,輸入數(shù)據(jù)與輸入權(quán)重矩陣×矩陣相乘,N為設(shè)定的維度,對矩陣W進(jìn)行初始化,結(jié)果作為隱藏層向量,大小為N,乘以輸出權(quán)重矩陣×,并用神經(jīng)網(wǎng)絡(luò)模型處理即可得到一個一維向量V。向量維度代表語料庫中的詞匯,其中概率最大的索引層即為預(yù)測出的中間詞匯,并根據(jù)truelabel的One-Hot做比較,定義目標(biāo)損失函數(shù),使誤差越小越好。(4)GloVe模型LSA雖然有效利用了詞匯的全局統(tǒng)計信息,但是在詞匯語義精度上效果不佳,而基于CBOW和Skip-gram的Word2Vec雖然可以很好地進(jìn)行詞匯類比,但是該方法是利用詞匯前后的窗口信息對詞匯進(jìn)行訓(xùn)練,沒有有效地利用全局的詞匯共現(xiàn)統(tǒng)計信息,也會造成一定的語義丟失。斯坦福NLP(NaturalLanguageProcessing)小組[19]在2014年提出一種新的詞匯表征方法---GloVe(GlobalVectorsforWordRepresentation)模型,它結(jié)合了Word2Vec以及LSA模型的優(yōu)點,訓(xùn)練出的詞匯向量不僅可以有效捕捉到詞匯的
濟(jì)南大學(xué)碩士學(xué)位論文253.1.2詞移距離—文檔相似性度量在考慮引文網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系與語義關(guān)系的前提下,本文選用詞移距離(WordMover"sDistance,WMD)來度量節(jié)點相似性(文獻(xiàn)間的相似度),WMD是一種文本相似度量方法,WMD起源于EMD模型,EMD(EarthMover’sDistance)[51]是一種在約束條件下求解運(yùn)輸問題最優(yōu)解的一種方法,可以對多分布進(jìn)行距離測量。EMD主要原理如下:假設(shè)在工廠生產(chǎn)中有如下問題,產(chǎn)品需要從多個工廠運(yùn)輸?shù)蕉鄠倉庫進(jìn)行存儲,求解運(yùn)輸過程的最短距離,如下圖所示,圖3.1運(yùn)輸示意圖1到代表m座工廠,假設(shè)工廠有重量為的貨物,1到代表m個倉庫,倉庫的最大容量為,運(yùn)輸過程中需遵循以下規(guī)則:倉庫應(yīng)盡可能多的存儲產(chǎn)品,運(yùn)輸過程中距離應(yīng)盡可能短。則EMD求得的最優(yōu)解即為產(chǎn)品從P運(yùn)輸?shù)絈的過程最高效的方式。在問題中,工廠和倉庫都是離散的,EMD運(yùn)用Hungarian算法計算它們之間的距離,假設(shè)貨物從工廠運(yùn)到倉庫,距離是,運(yùn)送貨物的重量為,則一次運(yùn)輸所需要的工作量為,顯然,距離越遠(yuǎn)或貨物越重,工作量就越大(運(yùn)輸可能是多對多的,即一個工廠運(yùn)輸產(chǎn)品到多個倉庫,或者一個倉庫接收多個工廠的產(chǎn)品。)產(chǎn)品從工廠運(yùn)到倉庫需要很多次這樣的運(yùn)輸,經(jīng)過一些計算和優(yōu)化,這時我們得到了工作量總和的最小值W,=∑∑(3.1)11…………分布P分布Q距離重量
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報. 2019(04)
[2]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明. 計算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[3]期刊與會議的混合共被引網(wǎng)絡(luò)分析——以計算機(jī)科學(xué)領(lǐng)域為例[J]. 孫瑤,王賢文. 中國科技期刊研究. 2018(11)
[4]基于引文網(wǎng)絡(luò)的潛在跨學(xué)科合作者識別——以圖書情報學(xué)為例[J]. 李長玲,馮志剛,劉運(yùn)梅,劉小慧. 情報資料工作. 2018(03)
[5]共詞網(wǎng)絡(luò)LDA模型的中文短文本主題分析[J]. 蔡永明,長青. 情報學(xué)報. 2018(03)
[6]基于樣本加權(quán)的引文網(wǎng)絡(luò)的社團(tuán)劃分[J]. 肖雪,王釗偉,陳云偉,鄧勇. 圖書情報工作. 2016(20)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機(jī)科學(xué). 2016(06)
[8]基于Histcite工具的引文網(wǎng)絡(luò)實證研究[J]. 李瑞波,張琳,王玨,劉鳳琴,董穎. 情報科學(xué). 2015(10)
[9]基于引文網(wǎng)絡(luò)挖掘和時序分析的知識擴(kuò)散研究[J]. 邱均平,李小濤. 情報理論與實踐. 2014(07)
[10]詞干提取方法及工具的對比分析研究[J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報工作. 2012(15)
博士論文
[1]科學(xué)學(xué)引文網(wǎng)絡(luò)的結(jié)構(gòu)研究[D]. 尹麗春.大連理工大學(xué) 2006
碩士論文
[1]基于影響力流識別引文網(wǎng)絡(luò)中的主路徑研究[D]. 程潔瓊.華中師范大學(xué) 2019
[2]基于引文網(wǎng)絡(luò)的學(xué)術(shù)傳承性文獻(xiàn)識別方法研究[D]. 郭倩影.北京協(xié)和醫(yī)學(xué)院 2019
[3]數(shù)字人文領(lǐng)域的知識網(wǎng)絡(luò)研究[D]. 陳路遙.華東師范大學(xué) 2018
[4]基于復(fù)雜網(wǎng)絡(luò)的知識圖譜構(gòu)建與應(yīng)用研究[D]. 段涵特.國防科技大學(xué) 2017
[5]基于幾何圖的科學(xué)引文網(wǎng)絡(luò)建模與分析[D]. 劉齊.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于詞袋模型的人臉表情識別研究[D]. 王濤.華中科技大學(xué) 2013
本文編號:3122309
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
社區(qū)示意圖
濟(jì)南大學(xué)碩士學(xué)位論文19圖2.2word2vec訓(xùn)練過程示意圖在上圖中,目標(biāo)詞匯的上下文單詞的One-Hot模型作為輸入數(shù)據(jù),假設(shè)目標(biāo)詞匯的維度為V,以C為半徑,即上下文單詞各為C,輸入數(shù)據(jù)與輸入權(quán)重矩陣×矩陣相乘,N為設(shè)定的維度,對矩陣W進(jìn)行初始化,結(jié)果作為隱藏層向量,大小為N,乘以輸出權(quán)重矩陣×,并用神經(jīng)網(wǎng)絡(luò)模型處理即可得到一個一維向量V。向量維度代表語料庫中的詞匯,其中概率最大的索引層即為預(yù)測出的中間詞匯,并根據(jù)truelabel的One-Hot做比較,定義目標(biāo)損失函數(shù),使誤差越小越好。(4)GloVe模型LSA雖然有效利用了詞匯的全局統(tǒng)計信息,但是在詞匯語義精度上效果不佳,而基于CBOW和Skip-gram的Word2Vec雖然可以很好地進(jìn)行詞匯類比,但是該方法是利用詞匯前后的窗口信息對詞匯進(jìn)行訓(xùn)練,沒有有效地利用全局的詞匯共現(xiàn)統(tǒng)計信息,也會造成一定的語義丟失。斯坦福NLP(NaturalLanguageProcessing)小組[19]在2014年提出一種新的詞匯表征方法---GloVe(GlobalVectorsforWordRepresentation)模型,它結(jié)合了Word2Vec以及LSA模型的優(yōu)點,訓(xùn)練出的詞匯向量不僅可以有效捕捉到詞匯的
濟(jì)南大學(xué)碩士學(xué)位論文253.1.2詞移距離—文檔相似性度量在考慮引文網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系與語義關(guān)系的前提下,本文選用詞移距離(WordMover"sDistance,WMD)來度量節(jié)點相似性(文獻(xiàn)間的相似度),WMD是一種文本相似度量方法,WMD起源于EMD模型,EMD(EarthMover’sDistance)[51]是一種在約束條件下求解運(yùn)輸問題最優(yōu)解的一種方法,可以對多分布進(jìn)行距離測量。EMD主要原理如下:假設(shè)在工廠生產(chǎn)中有如下問題,產(chǎn)品需要從多個工廠運(yùn)輸?shù)蕉鄠倉庫進(jìn)行存儲,求解運(yùn)輸過程的最短距離,如下圖所示,圖3.1運(yùn)輸示意圖1到代表m座工廠,假設(shè)工廠有重量為的貨物,1到代表m個倉庫,倉庫的最大容量為,運(yùn)輸過程中需遵循以下規(guī)則:倉庫應(yīng)盡可能多的存儲產(chǎn)品,運(yùn)輸過程中距離應(yīng)盡可能短。則EMD求得的最優(yōu)解即為產(chǎn)品從P運(yùn)輸?shù)絈的過程最高效的方式。在問題中,工廠和倉庫都是離散的,EMD運(yùn)用Hungarian算法計算它們之間的距離,假設(shè)貨物從工廠運(yùn)到倉庫,距離是,運(yùn)送貨物的重量為,則一次運(yùn)輸所需要的工作量為,顯然,距離越遠(yuǎn)或貨物越重,工作量就越大(運(yùn)輸可能是多對多的,即一個工廠運(yùn)輸產(chǎn)品到多個倉庫,或者一個倉庫接收多個工廠的產(chǎn)品。)產(chǎn)品從工廠運(yùn)到倉庫需要很多次這樣的運(yùn)輸,經(jīng)過一些計算和優(yōu)化,這時我們得到了工作量總和的最小值W,=∑∑(3.1)11…………分布P分布Q距離重量
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報. 2019(04)
[2]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明. 計算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[3]期刊與會議的混合共被引網(wǎng)絡(luò)分析——以計算機(jī)科學(xué)領(lǐng)域為例[J]. 孫瑤,王賢文. 中國科技期刊研究. 2018(11)
[4]基于引文網(wǎng)絡(luò)的潛在跨學(xué)科合作者識別——以圖書情報學(xué)為例[J]. 李長玲,馮志剛,劉運(yùn)梅,劉小慧. 情報資料工作. 2018(03)
[5]共詞網(wǎng)絡(luò)LDA模型的中文短文本主題分析[J]. 蔡永明,長青. 情報學(xué)報. 2018(03)
[6]基于樣本加權(quán)的引文網(wǎng)絡(luò)的社團(tuán)劃分[J]. 肖雪,王釗偉,陳云偉,鄧勇. 圖書情報工作. 2016(20)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機(jī)科學(xué). 2016(06)
[8]基于Histcite工具的引文網(wǎng)絡(luò)實證研究[J]. 李瑞波,張琳,王玨,劉鳳琴,董穎. 情報科學(xué). 2015(10)
[9]基于引文網(wǎng)絡(luò)挖掘和時序分析的知識擴(kuò)散研究[J]. 邱均平,李小濤. 情報理論與實踐. 2014(07)
[10]詞干提取方法及工具的對比分析研究[J]. 吳思竹,錢慶,胡鐵軍,李丹亞,李軍蓮,洪娜. 圖書情報工作. 2012(15)
博士論文
[1]科學(xué)學(xué)引文網(wǎng)絡(luò)的結(jié)構(gòu)研究[D]. 尹麗春.大連理工大學(xué) 2006
碩士論文
[1]基于影響力流識別引文網(wǎng)絡(luò)中的主路徑研究[D]. 程潔瓊.華中師范大學(xué) 2019
[2]基于引文網(wǎng)絡(luò)的學(xué)術(shù)傳承性文獻(xiàn)識別方法研究[D]. 郭倩影.北京協(xié)和醫(yī)學(xué)院 2019
[3]數(shù)字人文領(lǐng)域的知識網(wǎng)絡(luò)研究[D]. 陳路遙.華東師范大學(xué) 2018
[4]基于復(fù)雜網(wǎng)絡(luò)的知識圖譜構(gòu)建與應(yīng)用研究[D]. 段涵特.國防科技大學(xué) 2017
[5]基于幾何圖的科學(xué)引文網(wǎng)絡(luò)建模與分析[D]. 劉齊.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于詞袋模型的人臉表情識別研究[D]. 王濤.華中科技大學(xué) 2013
本文編號:3122309
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3122309.html
最近更新
教材專著