社交網(wǎng)絡(luò)中的標(biāo)簽主題識(shí)別及社群挖掘方法研究
發(fā)布時(shí)間:2020-07-01 12:50
【摘要】:Web2.0技術(shù)與社會(huì)化媒體的迅速發(fā)展為人們獲取信息、發(fā)表意見(jiàn)、交互活動(dòng)提供了開(kāi)放的、便捷的平臺(tái)。海量復(fù)雜的信息產(chǎn)生在這種社交網(wǎng)絡(luò)上,其背后隱藏著潛在好友、意見(jiàn)領(lǐng)袖、熱點(diǎn)事件等有用的信息,而獲得這些有用信息的關(guān)鍵是尋找具有相似性特征的用戶群體——社群。實(shí)施有效的社群挖掘不僅影響著人們的生產(chǎn)和生活,也對(duì)促進(jìn)社會(huì)的和諧發(fā)展具有十分重要的意義。社交網(wǎng)絡(luò)的信息主要來(lái)源于用戶生成和交互的文本內(nèi)容,因此,社群挖掘不再是單一網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)現(xiàn),而是更需要著眼于對(duì)這些文本信息語(yǔ)義的理解和內(nèi)容上的挖掘。本文借鑒社會(huì)標(biāo)簽系統(tǒng)的信息組織模式,以用戶關(guān)系為研究對(duì)象,開(kāi)展面向標(biāo)簽主題識(shí)別的社群挖掘的研究工作:1)提出一種基于標(biāo)簽主題的用戶重要性區(qū)分方法。用戶的興趣可能是多方面的,而傳統(tǒng)方法對(duì)用戶的“多興趣”并未加以區(qū)分,致使用戶重要性區(qū)分并未在用戶的同一興趣類別中進(jìn)行,導(dǎo)致了用戶相似性度量的“興趣偏差”問(wèn)題。針對(duì)這一問(wèn)題,本文在大眾分類模式網(wǎng)絡(luò)中,首先采用標(biāo)簽聚類方法來(lái)識(shí)別興趣主題,并歸類用戶;然后在興趣主題相同的用戶社群中,結(jié)合社會(huì)網(wǎng)絡(luò)分析和PageRank方法構(gòu)建用戶重要度指標(biāo);最后將該指標(biāo)引入用戶相似度模型,在delicious數(shù)據(jù)集上進(jìn)行有效性的驗(yàn)證,并在好友推薦中得以應(yīng)用。2)構(gòu)建結(jié)合時(shí)間因素的用戶興趣更新模型。建立社交網(wǎng)絡(luò)的用戶興趣模型對(duì)于提供高質(zhì)量的網(wǎng)絡(luò)個(gè)性化服務(wù)具有重要意義,而識(shí)別用戶興趣的變化則是建模中的難點(diǎn)。針對(duì)并未以大眾分類模式搭建的社交網(wǎng)絡(luò)的標(biāo)簽并不豐富的特點(diǎn),以LDA(Latent Dirichlet Allocation)主題模型中的“詞語(yǔ)”作為標(biāo)簽,將標(biāo)簽語(yǔ)義特征和時(shí)間特征相結(jié)合構(gòu)建用戶興趣更新模型。按照微博信息量的不同將用戶劃分為兩大類:針對(duì)微博信息豐富的老用戶,引入時(shí)間權(quán)重函數(shù)構(gòu)建用戶LDA興趣更新模型;而針對(duì)微博信息較少的“冷啟動(dòng)”用戶,采用空間向量相似性度量方法構(gòu)建用戶的興趣模型,并通過(guò)學(xué)習(xí)模型對(duì)用戶的興趣變化進(jìn)行識(shí)別,實(shí)現(xiàn)對(duì)用戶興趣模型的更新。在微博數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行了應(yīng)用,并獲得了網(wǎng)絡(luò)的主題、網(wǎng)絡(luò)主題的核心用戶以及用戶的興趣。3)提出一種綜合考慮用戶社會(huì)關(guān)系和用戶生成內(nèi)容社群劃分的方法。本部分包括兩個(gè)階段的工作:用戶綜合相似度的確定和基于信息粒度的社群劃分。第一階段從用戶社會(huì)關(guān)系和用戶生成內(nèi)容兩個(gè)視角,采用鏈接預(yù)測(cè)方法優(yōu)化社會(huì)關(guān)系模型,采用“細(xì)粒度”用戶標(biāo)簽和“粗粒度”內(nèi)容標(biāo)簽構(gòu)建用戶“標(biāo)簽-主題”關(guān)系模型,將這兩個(gè)模型加權(quán)匯總并設(shè)定可適應(yīng)性的調(diào)節(jié)參數(shù),建立融合社會(huì)關(guān)系和用戶內(nèi)容的用戶綜合相似度模型。第二階段針對(duì)K-Means聚類算法的不足以及數(shù)據(jù)的高維性和稀疏性的缺陷,將信息粒度原理應(yīng)用于用戶聚類分析中,給出用戶等價(jià)關(guān)系的隸屬度和廣義的等價(jià)關(guān)系,在此基礎(chǔ)上提出一種基于信息粒度的社群劃分算法。實(shí)驗(yàn)結(jié)果表明,由于有效融合了用戶的社會(huì)關(guān)系這一重要信息和引入信息粒度方法,提出的模型與未加權(quán)的用戶標(biāo)簽主題模型、K-Means相比,獲得了更好的Ⅰ指標(biāo)和Dunn指標(biāo)評(píng)價(jià)結(jié)果。4)提出社群的知識(shí)增長(zhǎng)測(cè)度及用戶選擇方法。將社會(huì)標(biāo)簽系統(tǒng)應(yīng)用于知識(shí)服務(wù)研究中,借鑒前文社群挖掘關(guān)鍵技術(shù)和研究成果,建立一種混合標(biāo)簽本體模式下的語(yǔ)義知識(shí)庫(kù),分析生成的知識(shí)社群組成及特征。將個(gè)體與組織之間的知識(shí)轉(zhuǎn)移進(jìn)行量化表示,對(duì)知識(shí)社群內(nèi)的知識(shí)存量和知識(shí)增長(zhǎng)進(jìn)行測(cè)度。從內(nèi)容感知的角度,結(jié)合相似度計(jì)算模型,設(shè)計(jì)知識(shí)轉(zhuǎn)移過(guò)程的用戶選擇算法,優(yōu)化知識(shí)轉(zhuǎn)移,進(jìn)而推動(dòng)知識(shí)在群體內(nèi)的良性高效流動(dòng)。
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:C912.2
【圖文】:
¥?逡逑用戶(U)邐標(biāo)簽00邐資源(R)逡逑圖1.邋1社會(huì)標(biāo)簽系統(tǒng)模型逡逑Fig.邋1.1邋Social邋Tag邋System邋model逡逑2)標(biāo)簽序化研宄內(nèi)容逡逑自從2004年“社會(huì)化標(biāo)注”這一概念首次被Thomas邋VanderWal提出,從此拉開(kāi)了逡逑對(duì)社會(huì)標(biāo)簽系統(tǒng)的研[側(cè)瘸。葰g,这謭(zhí)籩詵擲嘈問(wèn)礁嗣譴戳朔獎(jiǎng)愫涂旖蕕耐保義弦慘蛭镅宰櫓奶氐愣賈鋁吮昵┑畝嘌院湍:,并会臭溨标签分布柄疏、睍瞎辶x嫌寐實(shí)偷認(rèn)窒螅隕瞎逃腥畢萁檔土松緇岜昵┫低車淖試蠢寐。因此,需要秵T昵┳鰣義閑蚧恚岣弒昵┑撓行Ю謾e義媳昵┬蚧侵付隕緇岜昵┱庵痔囟ㄐ畔⒔兇櫓。臍ぐ,写夃学諊}箍宋票昵╁義閑蚧南喙匱繡常⑷〉昧瞬環(huán)頻難繡吵曬。标签序化牙C持饕逑衷諏礁霾忝媯罕昵╁義閑蚧幕⊙繡澈捅昵┬蚧撓τ醚芯俊G罷呶笳嚀峁┗〉睦礪酆圖際踔С牛緩笳咤義鮮喬罷呤迪值淖鈧漳勘
本文編號(hào):2736783
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:C912.2
【圖文】:
¥?逡逑用戶(U)邐標(biāo)簽00邐資源(R)逡逑圖1.邋1社會(huì)標(biāo)簽系統(tǒng)模型逡逑Fig.邋1.1邋Social邋Tag邋System邋model逡逑2)標(biāo)簽序化研宄內(nèi)容逡逑自從2004年“社會(huì)化標(biāo)注”這一概念首次被Thomas邋VanderWal提出,從此拉開(kāi)了逡逑對(duì)社會(huì)標(biāo)簽系統(tǒng)的研[側(cè)瘸。葰g,这謭(zhí)籩詵擲嘈問(wèn)礁嗣譴戳朔獎(jiǎng)愫涂旖蕕耐保義弦慘蛭镅宰櫓奶氐愣賈鋁吮昵┑畝嘌院湍:,并会臭溨标签分布柄疏、睍瞎辶x嫌寐實(shí)偷認(rèn)窒螅隕瞎逃腥畢萁檔土松緇岜昵┫低車淖試蠢寐。因此,需要秵T昵┳鰣義閑蚧恚岣弒昵┑撓行Ю謾e義媳昵┬蚧侵付隕緇岜昵┱庵痔囟ㄐ畔⒔兇櫓。臍ぐ,写夃学諊}箍宋票昵╁義閑蚧南喙匱繡常⑷〉昧瞬環(huán)頻難繡吵曬。标签序化牙C持饕逑衷諏礁霾忝媯罕昵╁義閑蚧幕⊙繡澈捅昵┬蚧撓τ醚芯俊G罷呶笳嚀峁┗〉睦礪酆圖際踔С牛緩笳咤義鮮喬罷呤迪值淖鈧漳勘
本文編號(hào):2736783
本文鏈接:http://sikaile.net/shekelunwen/shgj/2736783.html
最近更新
教材專著