基于參與者共現(xiàn)分析的博文聚類研究
發(fā)布時間:2017-06-29 23:11
本文關(guān)鍵詞:基于參與者共現(xiàn)分析的博文聚類研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:【目的】將博文參與者共現(xiàn)作為特征,探析其在博文聚類中的價值!痉椒ā績刹骄垲:構(gòu)建不同博文參與者的共現(xiàn)矩陣并轉(zhuǎn)化為相關(guān)矩陣,采用近鄰傳播(Affinity Propagation,AP)算法完成第一步聚類;將AP聚類結(jié)果的質(zhì)心作為初始聚類中心,對詞項進(jìn)行位置加權(quán),利用K-means算法完成博文內(nèi)容的第二步聚類!窘Y(jié)果】綜合博文參與者共現(xiàn)與詞項位置加權(quán)的聚類算法平均準(zhǔn)確率與純度分別達(dá)到0.66和0.57,顯著優(yōu)于對比實驗!揪窒蕖勘狙芯康闹饕暙I(xiàn)是引入?yún)⑴c者共現(xiàn)作為特征改進(jìn)博文聚類效果,對于該特征甚少的博文聚類價值有限!窘Y(jié)論】整合詞項與博文參與者特征的博文聚類顯著地提高了聚類質(zhì)量,兩步法聚類也為K-means算法初始聚類中心的選擇提供了可行的解決方案。
【作者單位】: 南京大學(xué)信息管理學(xué)院;
【關(guān)鍵詞】: 共現(xiàn)分析 文本聚類 博文參與者 初始聚類中心
【基金】:國家自然科學(xué)基金面上項目“融合范式視角下的鏈接分析理論集成框架及其實證研究”(項目編號:71273125) 中國科學(xué)技術(shù)信息研究所合作研究項目的研究成果之一
【分類號】:TP391.1
【正文快照】: 1引言 1973年,Small[1]提出了共引理論,該理論的核心是共引能反映兩篇文獻(xiàn)在內(nèi)容方面的相似性,共引關(guān)系的測度可用于揭示科學(xué)結(jié)構(gòu)。其后,學(xué)者依據(jù)共現(xiàn)思想從作者、關(guān)鍵詞等角度,進(jìn)行了作者同被引[2]以及共詞分析[3]。隨著Internet的普及,Larson[4]將該思想推廣到Web中開展了
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 喬亞男;齊勇;侯迪;;一種高穩(wěn)定性詞匯共現(xiàn)模型[J];西安交通大學(xué)學(xué)報;2009年06期
2 趙文清;侯小可;;基于詞共現(xiàn)圖的中文微博新聞話題識別[J];智能系統(tǒng)學(xué)報;2012年05期
3 胡明生;賈志娟;雷利利;洪流;;基于共現(xiàn)分析的歷史自然災(zāi)害關(guān)聯(lián)研究[J];計算機工程與設(shè)計;2013年06期
4 葛玲;蔣宗禮;;基于共現(xiàn)詞查詢的主題爬蟲研究[J];計算機工程;2010年08期
5 孫愛珍;;語境共現(xiàn)詞匯鏈的自動提取及與語篇銜接之關(guān)系(英文)[J];Chinese Journal of Applied Linguistics;2011年04期
6 陳
本文編號:499690
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/499690.html
最近更新
教材專著