網(wǎng)絡(luò)視域下領(lǐng)域重要關(guān)鍵詞提取方法的比較研究
發(fā)布時(shí)間:2022-01-19 12:04
[目的/意義]科學(xué)高效的領(lǐng)域關(guān)鍵詞篩選和提取方法,對于識別和分析領(lǐng)域知識的研究前沿與熱點(diǎn)具有極大的幫助。[方法/過程]文章基于關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò),從個(gè)體統(tǒng)計(jì)信息、知識關(guān)聯(lián)廣度、關(guān)聯(lián)關(guān)系質(zhì)量、全網(wǎng)結(jié)構(gòu)特征四個(gè)維度,對關(guān)鍵詞提取方法進(jìn)行比較研究。[結(jié)果/結(jié)論]研究結(jié)果表明,基于詞頻的關(guān)鍵詞提取方法對網(wǎng)絡(luò)魯棒性的影響最大,適用于識別領(lǐng)域研究熱點(diǎn);基于度值的方法強(qiáng)調(diào)局部特征,適用于無權(quán)網(wǎng)絡(luò)中識別領(lǐng)域核心知識;基于關(guān)系頻次的方法重視關(guān)聯(lián)關(guān)系的質(zhì)量,適用于探索知識關(guān)聯(lián)性的相關(guān)研究;基于特征分解的方法既考慮了網(wǎng)絡(luò)全局的結(jié)構(gòu)特征又兼顧了邊的權(quán)重,具有綜合的適用性。
【文章來源】:情報(bào)資料工作. 2020,41(03)北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
原始關(guān)鍵詞網(wǎng)絡(luò)相關(guān)指標(biāo)分布
圖2(a)為詞頻(F)與度值(D)的測量維度對比。結(jié)果顯示,詞頻維度與度值維度具有較大的線性相關(guān)性,高頻詞往往對應(yīng)著高度值。圖2(a)中高密度數(shù)據(jù)集中在低頻詞與低度值區(qū)域,從另一個(gè)側(cè)面驗(yàn)證了圖1中詞頻與度值的冪律分布。圖2(b)與圖2(c)分別為關(guān)系頻次(R)與詞頻(F)、關(guān)系頻次(R)與度值(D)的測算維度對比,但二者表現(xiàn)出的相關(guān)性都要弱于詞頻與度值的相關(guān)程度。前文詞頻(F)、度值(D)、關(guān)系頻次(R)都表現(xiàn)出近似的冪律分布(參見圖1),使得高密度數(shù)據(jù)同樣集中在低關(guān)系頻次與低詞頻和低度值區(qū)域。圖2(d)與圖2(e)分別為特征分解(E)法中的邊權(quán)重與詞頻(F)和度值(D)的測量維度對比。圖中的分析結(jié)果表明,高密度數(shù)據(jù)區(qū)域分別集中在高權(quán)重和中等權(quán)重與低詞頻和低度值交匯的區(qū)域,但是在邊權(quán)重維度上并不連續(xù)。較高的邊權(quán)重不但能夠提取到高詞頻和高度值的關(guān)鍵詞,還可以提取到部分低詞頻和低度值的關(guān)鍵詞。圖2(f)為關(guān)系頻次(R)與特征分解(E)法中的邊權(quán)重的測算維度對比。顯然,二者之間表現(xiàn)出一種近似對數(shù)曲線的相關(guān)性,即隨著關(guān)系頻次的增加邊權(quán)重迅速增長,隨后盡管關(guān)系頻次繼續(xù)增加但是邊權(quán)重不再增長。這意味著低關(guān)系頻次對應(yīng)著不同的較低和中等邊權(quán)重,高邊權(quán)重則包含中等和較高的關(guān)系頻次。通過上述分析可以初步得出,盡管四種方法的測量維度各自不同,但是基于詞頻的關(guān)鍵詞提取方法與基于度值的關(guān)鍵詞提取方法具有一定的相似性,流行的關(guān)鍵詞(高詞頻)在很大程度上也是關(guān)聯(lián)廣泛的關(guān)鍵詞(高度值)。基于關(guān)系頻次的關(guān)鍵詞提取方法雖然強(qiáng)調(diào)關(guān)系質(zhì)量,但是對流行程度(詞頻)與關(guān)聯(lián)廣度(度值)也有一定的兼顧。而基于特征分解的關(guān)鍵詞提取方法則相對復(fù)雜,同時(shí)關(guān)注網(wǎng)絡(luò)全局結(jié)構(gòu)特征和關(guān)系質(zhì)量,高邊權(quán)重在提取高詞頻、高度值、高關(guān)系頻次的關(guān)鍵詞的同時(shí),也能夠提取部分低詞頻、低度值或者中等關(guān)系頻次且在網(wǎng)絡(luò)中承擔(dān)重要結(jié)構(gòu)的關(guān)鍵詞。研究工作基于研究數(shù)據(jù),對四種方法提取的重要關(guān)鍵詞成員展開進(jìn)一步分析。
從上述分析可以發(fā)現(xiàn),不同的關(guān)鍵詞提取方法在測算維度方面既有相關(guān)性也存在差異性。研究工作將按照四種方法分別提取的前1%的關(guān)鍵詞作為分析對象,對基于詞頻得到的重要關(guān)鍵詞集合KF、基于度值提取的重要關(guān)鍵詞集合KD、基于關(guān)系頻次提取的重要關(guān)鍵詞集合KR、基于特征分解法提取的重要關(guān)鍵詞集合KE的成員進(jìn)行分析。將四個(gè)重要關(guān)鍵詞集合兩兩取交集,對比各個(gè)集合之間的成員交叉包含關(guān)系,結(jié)果如圖3所示。圖3將四種方法基于相同原始關(guān)鍵詞網(wǎng)絡(luò)各自提取的排名前1%的重要關(guān)鍵詞集合成員進(jìn)行交叉統(tǒng)計(jì)。由于原始關(guān)鍵詞基數(shù)相同,因此四種方法提取的前1%重要關(guān)鍵詞集合所包含的關(guān)鍵詞數(shù)量相同(51個(gè)重要關(guān)鍵詞)。深灰色交疊部分的數(shù)字代表四個(gè)集合交集,中灰色交疊部分的數(shù)字代表三個(gè)集合的交集(不包含四個(gè)集合的交集),淺灰色交疊部分代表兩個(gè)集合的交集(不包含三個(gè)集合的交集)。從圖中可以看出,KF∩KD∩KR∩KE=21(圖中深灰色部分),表明四種方法提取的領(lǐng)域重要關(guān)鍵詞有41.2%(21/51)的相同部分。此外,KF∩KE=29(0+3+21+5),KF∩KR=24(0+3+21+0),KF∩KD=46(0+21+5+20),KE∩KR=46(3+22+21+0),KE∩KD=26(21+0+0+5),KR∩KD=21(0+0+21+0)。兩兩相交的結(jié)果表明,四種方法中,基于詞頻提取的重要關(guān)鍵詞集合KF與基于度值提取的重要關(guān)鍵詞集合KD,在成員構(gòu)成上具有較大的相似性。同理,基于關(guān)系頻次提取的重要關(guān)鍵詞集合KR與基于特征分解提取的重要關(guān)鍵詞集合KE,在成員構(gòu)成上具有較大的相似性。
【參考文獻(xiàn)】:
期刊論文
[1]基于特征分解的知識網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系提取[J]. 欒宇,滕廣青,安寧,韓尚軒. 圖書情報(bào)工作. 2019(07)
[2]我國信息行為研究現(xiàn)狀與趨勢分析[J]. 王知津,吳東穎. 情報(bào)資料工作. 2018(06)
[3]基于頻度演化的領(lǐng)域知識關(guān)聯(lián)關(guān)系涌現(xiàn)[J]. 滕廣青. 中國圖書館學(xué)報(bào). 2018(03)
[4]網(wǎng)絡(luò)中心性視角下的領(lǐng)域知識聚類研究[J]. 安寧,滕廣青,白淑春,韓尚軒. 情報(bào)理論與實(shí)踐. 2018(08)
[5]基于網(wǎng)絡(luò)Hub的領(lǐng)域核心知識涌現(xiàn)研究[J]. 安寧,滕廣青,白淑春,辛海. 圖書情報(bào)工作. 2017(18)
[6]基于無標(biāo)度與分形理論的層次知識網(wǎng)絡(luò)原理解析[J]. 滕廣青,白淑春,韓尚軒,畢強(qiáng). 圖書情報(bào)工作. 2017(14)
[7]國際“專利信息”研究熱點(diǎn)——基于知識圖譜的詞頻分析[J]. 高勁松,劉延芳. 情報(bào)雜志. 2010(08)
[8]社會網(wǎng)絡(luò)分析在關(guān)鍵詞網(wǎng)絡(luò)分析中的實(shí)證研究[J]. 魏瑞斌. 情報(bào)雜志. 2009(09)
[9]基于共詞分析的數(shù)字圖書館領(lǐng)域研究主題及進(jìn)展分析[J]. 蘇娜. 情報(bào)雜志. 2009(06)
[10]國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J]. 馬費(fèi)成,張勤. 情報(bào)學(xué)報(bào). 2006 (02)
本文編號:3596818
【文章來源】:情報(bào)資料工作. 2020,41(03)北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
原始關(guān)鍵詞網(wǎng)絡(luò)相關(guān)指標(biāo)分布
圖2(a)為詞頻(F)與度值(D)的測量維度對比。結(jié)果顯示,詞頻維度與度值維度具有較大的線性相關(guān)性,高頻詞往往對應(yīng)著高度值。圖2(a)中高密度數(shù)據(jù)集中在低頻詞與低度值區(qū)域,從另一個(gè)側(cè)面驗(yàn)證了圖1中詞頻與度值的冪律分布。圖2(b)與圖2(c)分別為關(guān)系頻次(R)與詞頻(F)、關(guān)系頻次(R)與度值(D)的測算維度對比,但二者表現(xiàn)出的相關(guān)性都要弱于詞頻與度值的相關(guān)程度。前文詞頻(F)、度值(D)、關(guān)系頻次(R)都表現(xiàn)出近似的冪律分布(參見圖1),使得高密度數(shù)據(jù)同樣集中在低關(guān)系頻次與低詞頻和低度值區(qū)域。圖2(d)與圖2(e)分別為特征分解(E)法中的邊權(quán)重與詞頻(F)和度值(D)的測量維度對比。圖中的分析結(jié)果表明,高密度數(shù)據(jù)區(qū)域分別集中在高權(quán)重和中等權(quán)重與低詞頻和低度值交匯的區(qū)域,但是在邊權(quán)重維度上并不連續(xù)。較高的邊權(quán)重不但能夠提取到高詞頻和高度值的關(guān)鍵詞,還可以提取到部分低詞頻和低度值的關(guān)鍵詞。圖2(f)為關(guān)系頻次(R)與特征分解(E)法中的邊權(quán)重的測算維度對比。顯然,二者之間表現(xiàn)出一種近似對數(shù)曲線的相關(guān)性,即隨著關(guān)系頻次的增加邊權(quán)重迅速增長,隨后盡管關(guān)系頻次繼續(xù)增加但是邊權(quán)重不再增長。這意味著低關(guān)系頻次對應(yīng)著不同的較低和中等邊權(quán)重,高邊權(quán)重則包含中等和較高的關(guān)系頻次。通過上述分析可以初步得出,盡管四種方法的測量維度各自不同,但是基于詞頻的關(guān)鍵詞提取方法與基于度值的關(guān)鍵詞提取方法具有一定的相似性,流行的關(guān)鍵詞(高詞頻)在很大程度上也是關(guān)聯(lián)廣泛的關(guān)鍵詞(高度值)。基于關(guān)系頻次的關(guān)鍵詞提取方法雖然強(qiáng)調(diào)關(guān)系質(zhì)量,但是對流行程度(詞頻)與關(guān)聯(lián)廣度(度值)也有一定的兼顧。而基于特征分解的關(guān)鍵詞提取方法則相對復(fù)雜,同時(shí)關(guān)注網(wǎng)絡(luò)全局結(jié)構(gòu)特征和關(guān)系質(zhì)量,高邊權(quán)重在提取高詞頻、高度值、高關(guān)系頻次的關(guān)鍵詞的同時(shí),也能夠提取部分低詞頻、低度值或者中等關(guān)系頻次且在網(wǎng)絡(luò)中承擔(dān)重要結(jié)構(gòu)的關(guān)鍵詞。研究工作基于研究數(shù)據(jù),對四種方法提取的重要關(guān)鍵詞成員展開進(jìn)一步分析。
從上述分析可以發(fā)現(xiàn),不同的關(guān)鍵詞提取方法在測算維度方面既有相關(guān)性也存在差異性。研究工作將按照四種方法分別提取的前1%的關(guān)鍵詞作為分析對象,對基于詞頻得到的重要關(guān)鍵詞集合KF、基于度值提取的重要關(guān)鍵詞集合KD、基于關(guān)系頻次提取的重要關(guān)鍵詞集合KR、基于特征分解法提取的重要關(guān)鍵詞集合KE的成員進(jìn)行分析。將四個(gè)重要關(guān)鍵詞集合兩兩取交集,對比各個(gè)集合之間的成員交叉包含關(guān)系,結(jié)果如圖3所示。圖3將四種方法基于相同原始關(guān)鍵詞網(wǎng)絡(luò)各自提取的排名前1%的重要關(guān)鍵詞集合成員進(jìn)行交叉統(tǒng)計(jì)。由于原始關(guān)鍵詞基數(shù)相同,因此四種方法提取的前1%重要關(guān)鍵詞集合所包含的關(guān)鍵詞數(shù)量相同(51個(gè)重要關(guān)鍵詞)。深灰色交疊部分的數(shù)字代表四個(gè)集合交集,中灰色交疊部分的數(shù)字代表三個(gè)集合的交集(不包含四個(gè)集合的交集),淺灰色交疊部分代表兩個(gè)集合的交集(不包含三個(gè)集合的交集)。從圖中可以看出,KF∩KD∩KR∩KE=21(圖中深灰色部分),表明四種方法提取的領(lǐng)域重要關(guān)鍵詞有41.2%(21/51)的相同部分。此外,KF∩KE=29(0+3+21+5),KF∩KR=24(0+3+21+0),KF∩KD=46(0+21+5+20),KE∩KR=46(3+22+21+0),KE∩KD=26(21+0+0+5),KR∩KD=21(0+0+21+0)。兩兩相交的結(jié)果表明,四種方法中,基于詞頻提取的重要關(guān)鍵詞集合KF與基于度值提取的重要關(guān)鍵詞集合KD,在成員構(gòu)成上具有較大的相似性。同理,基于關(guān)系頻次提取的重要關(guān)鍵詞集合KR與基于特征分解提取的重要關(guān)鍵詞集合KE,在成員構(gòu)成上具有較大的相似性。
【參考文獻(xiàn)】:
期刊論文
[1]基于特征分解的知識網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系提取[J]. 欒宇,滕廣青,安寧,韓尚軒. 圖書情報(bào)工作. 2019(07)
[2]我國信息行為研究現(xiàn)狀與趨勢分析[J]. 王知津,吳東穎. 情報(bào)資料工作. 2018(06)
[3]基于頻度演化的領(lǐng)域知識關(guān)聯(lián)關(guān)系涌現(xiàn)[J]. 滕廣青. 中國圖書館學(xué)報(bào). 2018(03)
[4]網(wǎng)絡(luò)中心性視角下的領(lǐng)域知識聚類研究[J]. 安寧,滕廣青,白淑春,韓尚軒. 情報(bào)理論與實(shí)踐. 2018(08)
[5]基于網(wǎng)絡(luò)Hub的領(lǐng)域核心知識涌現(xiàn)研究[J]. 安寧,滕廣青,白淑春,辛海. 圖書情報(bào)工作. 2017(18)
[6]基于無標(biāo)度與分形理論的層次知識網(wǎng)絡(luò)原理解析[J]. 滕廣青,白淑春,韓尚軒,畢強(qiáng). 圖書情報(bào)工作. 2017(14)
[7]國際“專利信息”研究熱點(diǎn)——基于知識圖譜的詞頻分析[J]. 高勁松,劉延芳. 情報(bào)雜志. 2010(08)
[8]社會網(wǎng)絡(luò)分析在關(guān)鍵詞網(wǎng)絡(luò)分析中的實(shí)證研究[J]. 魏瑞斌. 情報(bào)雜志. 2009(09)
[9]基于共詞分析的數(shù)字圖書館領(lǐng)域研究主題及進(jìn)展分析[J]. 蘇娜. 情報(bào)雜志. 2009(06)
[10]國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J]. 馬費(fèi)成,張勤. 情報(bào)學(xué)報(bào). 2006 (02)
本文編號:3596818
本文鏈接:http://sikaile.net/tushudanganlunwen/3596818.html
教材專著