共詞分析中高頻詞閾值確定方法的實證研究——以新冠肺炎文獻高頻詞選取為例
發(fā)布時間:2020-10-15 02:20
【目的/意義】高頻詞選取是共詞分析中重要一環(huán),高頻詞閾值選取結(jié)果會直接影響共詞分析的效果。目前圖書情報領(lǐng)域研究人員做共詞分析時主要有自主確定法、高低頻詞分界公式法、普賴斯公式法等。筆者以詞頻g指數(shù)為基礎(chǔ)構(gòu)建了一種確定高頻詞閾值的方法,對上述高頻詞閾值確定方法進行實證研究,探究了不同高頻詞閾值確定方法選詞的實際效果�!痉椒�/過程】本文以中國知網(wǎng)中收錄的新型冠狀病毒肺炎主題論文為數(shù)據(jù)來源,利用不同高頻詞閾值確定方法選取對應(yīng)高頻詞。利用excel統(tǒng)計數(shù)據(jù)并構(gòu)造共詞矩陣,借助spss軟件對矩陣進行聚類分析。【結(jié)果/結(jié)論】筆者發(fā)現(xiàn)基于詞頻g指數(shù)的方法取得了良好的共詞聚類效果,為該方法的實際應(yīng)用做了有益的嘗試。
【部分圖文】:
情報科學第38卷第9期2020年9月·業(yè)務(wù)研究業(yè)務(wù)研究·圖1普賴斯公式法確定的高頻詞聚類分析樹狀圖(閾值取22.5)將相異矩陣導入spss進行聚類分析,聚類方法采用組間聯(lián)接法,度量方式為歐氏距離,聚類結(jié)果如圖1、圖2所示。在閾值22.5處劃分相應(yīng)類別,可以發(fā)現(xiàn)普萊斯法和基于詞頻g指數(shù)法均獲得5個類團。從圖1中可以發(fā)現(xiàn),類團1、類團3及類團5描述的內(nèi)容均以新型冠狀病毒為主,三大類團中內(nèi)容并無特別明顯差異。若將閾值設(shè)為23.5,如圖3所示,可得四個類團,但類團1與類團4內(nèi)容依舊差別不大。從圖2可以發(fā)現(xiàn)基于詞頻g指數(shù)法確定的高頻詞可以劃分為以下5大研究大類:第一類詞同網(wǎng)絡(luò)藥理學關(guān)系較為密切,第二類詞多與新型冠狀病毒相關(guān)聯(lián),第三類詞由新型冠狀病毒感染、體層攝影術(shù)等詞組成。因新型冠狀病毒會感染患者肺部,針對患者CT影像進行分析的論文也較多。第四類可歸納為新型冠狀病毒核酸檢測及兒童病例診斷與治療。第五類詞主要包含新型冠狀病毒肺炎、藥學監(jiān)護、中藥、診療方案、防護等詞匯,可歸結(jié)為新冠肺炎的防控與治療。圖3普賴斯公式法確定的高頻詞聚類分析樹狀圖(閾值取23.5)圖1和圖3表明在本次研究中普賴斯公式法選取的詞數(shù)目尚可,但聚類效果一般。因為普賴斯公式所確定的高頻詞主題多集中于新型冠狀病毒這一個概念,與新冠肺炎相關(guān)的近義詞約占其全部提取高頻詞的82%,對于其他方面內(nèi)容的詞匯并未涉及太多,導致類團內(nèi)容傾向于一個主題方向。圖2中的高頻詞進行共詞聚類分析后共獲得了五個不同方面表2普賴斯法所確定的高頻詞相異矩陣(局部)表3基于詞頻g指數(shù)法所確定的高頻詞相異矩陣(局部)肺?
諶范ǜ咂蕩抒兄凳保?渲擋揮傻ヒ槐淞?決定,而是由關(guān)鍵詞累加總頻次和單一關(guān)鍵詞頻次兩個變量共同決定,兩變量間聯(lián)系較為密切,而變量與整體集合間亦存在關(guān)聯(lián),其確定的高頻詞閾值不容易失真。該法既不會遺漏超高頻次詞,也可較好保留了次高頻次詞,可較好得獲得熱點研究趨勢中具體的熱點內(nèi)容。與詞頻g指數(shù)確定法相比,基于詞頻g指數(shù)確定法計算所得閾值不容易溢出,在不同的數(shù)據(jù)中具有更好的適用性。在本次實證研究中,我們對共詞分析中若干高頻詞閾值確定方法及基于詞頻g指數(shù)法進行了實證研究,發(fā)現(xiàn)基于詞圖2基于詞頻g指數(shù)法確定的高頻詞聚類分析樹狀圖(閾值取22.5)--94
【相似文獻】
本文編號:2841542
【部分圖文】:
情報科學第38卷第9期2020年9月·業(yè)務(wù)研究業(yè)務(wù)研究·圖1普賴斯公式法確定的高頻詞聚類分析樹狀圖(閾值取22.5)將相異矩陣導入spss進行聚類分析,聚類方法采用組間聯(lián)接法,度量方式為歐氏距離,聚類結(jié)果如圖1、圖2所示。在閾值22.5處劃分相應(yīng)類別,可以發(fā)現(xiàn)普萊斯法和基于詞頻g指數(shù)法均獲得5個類團。從圖1中可以發(fā)現(xiàn),類團1、類團3及類團5描述的內(nèi)容均以新型冠狀病毒為主,三大類團中內(nèi)容并無特別明顯差異。若將閾值設(shè)為23.5,如圖3所示,可得四個類團,但類團1與類團4內(nèi)容依舊差別不大。從圖2可以發(fā)現(xiàn)基于詞頻g指數(shù)法確定的高頻詞可以劃分為以下5大研究大類:第一類詞同網(wǎng)絡(luò)藥理學關(guān)系較為密切,第二類詞多與新型冠狀病毒相關(guān)聯(lián),第三類詞由新型冠狀病毒感染、體層攝影術(shù)等詞組成。因新型冠狀病毒會感染患者肺部,針對患者CT影像進行分析的論文也較多。第四類可歸納為新型冠狀病毒核酸檢測及兒童病例診斷與治療。第五類詞主要包含新型冠狀病毒肺炎、藥學監(jiān)護、中藥、診療方案、防護等詞匯,可歸結(jié)為新冠肺炎的防控與治療。圖3普賴斯公式法確定的高頻詞聚類分析樹狀圖(閾值取23.5)圖1和圖3表明在本次研究中普賴斯公式法選取的詞數(shù)目尚可,但聚類效果一般。因為普賴斯公式所確定的高頻詞主題多集中于新型冠狀病毒這一個概念,與新冠肺炎相關(guān)的近義詞約占其全部提取高頻詞的82%,對于其他方面內(nèi)容的詞匯并未涉及太多,導致類團內(nèi)容傾向于一個主題方向。圖2中的高頻詞進行共詞聚類分析后共獲得了五個不同方面表2普賴斯法所確定的高頻詞相異矩陣(局部)表3基于詞頻g指數(shù)法所確定的高頻詞相異矩陣(局部)肺?
諶范ǜ咂蕩抒兄凳保?渲擋揮傻ヒ槐淞?決定,而是由關(guān)鍵詞累加總頻次和單一關(guān)鍵詞頻次兩個變量共同決定,兩變量間聯(lián)系較為密切,而變量與整體集合間亦存在關(guān)聯(lián),其確定的高頻詞閾值不容易失真。該法既不會遺漏超高頻次詞,也可較好保留了次高頻次詞,可較好得獲得熱點研究趨勢中具體的熱點內(nèi)容。與詞頻g指數(shù)確定法相比,基于詞頻g指數(shù)確定法計算所得閾值不容易溢出,在不同的數(shù)據(jù)中具有更好的適用性。在本次實證研究中,我們對共詞分析中若干高頻詞閾值確定方法及基于詞頻g指數(shù)法進行了實證研究,發(fā)現(xiàn)基于詞圖2基于詞頻g指數(shù)法確定的高頻詞聚類分析樹狀圖(閾值取22.5)--94
【相似文獻】
相關(guān)期刊論文 前1條
1 費曉璐;江瀾;陳鵬宇;李嘉;魏嵐;江瑞;閭海榮;;基于自然語言處理進行新冠肺炎確診患者流行病學史的變化趨勢分析的探索[J];中國數(shù)字醫(yī)學;2020年05期
本文編號:2841542
本文鏈接:http://sikaile.net/tushudanganlunwen/2841542.html
最近更新
教材專著