基于微博內(nèi)容的博主標(biāo)簽生成關(guān)鍵技術(shù)研究
本文選題:微博 + 用戶標(biāo)簽; 參考:《國防科學(xué)技術(shù)大學(xué)》2014年碩士論文
【摘要】:近幾年,以Twitter、新浪微博為代表的微博客(Micro Blog)應(yīng)用得到了快速的發(fā)展。吸引了大量的用戶的同時(shí),積累了海量的用戶數(shù)據(jù)。已漸漸的發(fā)展成了一種被大眾所喜愛的新型媒體。從用戶數(shù)據(jù)中挖掘出用戶特征,為微博用戶提供個(gè)性化的服務(wù),為企業(yè)和政府部門提供相關(guān)建議,這使得該項(xiàng)研究有著巨大的商業(yè)價(jià)值和社會(huì)價(jià)值。本文以微博用戶發(fā)表的微博內(nèi)容作為輸入數(shù)據(jù),運(yùn)用微博關(guān)鍵詞提取、微博用戶建模和分類技術(shù),發(fā)現(xiàn)微博用戶的特征,為微博用戶添加一個(gè)描述用戶特征的標(biāo)簽。本文對(duì)關(guān)鍵詞提取、用戶建模和分類技術(shù)進(jìn)行了深入的研究,主要的工作如下:首先,在微博關(guān)鍵詞的提取方面,根據(jù)微博短文本的特性,運(yùn)用TF-IDF算法和Text Rank算法計(jì)算詞語在微博中的權(quán)重;然后將用戶的微博轉(zhuǎn)化成空間向量模型,使用聚類算法提取候選關(guān)鍵詞;得到候選關(guān)鍵詞后,運(yùn)用n元語法模型對(duì)候選關(guān)鍵詞擴(kuò)展;最后根據(jù)鄰接變化數(shù)和語義單元數(shù)對(duì)擴(kuò)展后的關(guān)鍵詞進(jìn)行篩選,得到最終的關(guān)鍵詞列表。有效的提取出了用戶微博中的關(guān)鍵詞。然后,在微博用戶建模方面,將微博分成原創(chuàng)微博、轉(zhuǎn)發(fā)微博、話題微博、主題微博。以用戶添加過標(biāo)簽的微博為參照,研究不同微博在表現(xiàn)用戶特征方面的不同。結(jié)果表明話題微博和主題微博更能夠表現(xiàn)出微博用戶的特征;诖颂岢隽艘环N基于微博類型的用戶建模方案,加強(qiáng)了話題微博和主題微博在模型中的權(quán)重。有效的提升了建模效果。最后,在用戶標(biāo)簽生成方面,以新浪微博平臺(tái)的官方認(rèn)證賬號(hào)發(fā)表的微博為訓(xùn)練數(shù)據(jù),利用本文的關(guān)鍵詞提取方法和用戶建模方案,為官方認(rèn)證賬號(hào)建立標(biāo)簽?zāi)P?為待添加標(biāo)簽用戶建立用戶模型。運(yùn)用支持向量機(jī)(SVM)的分類功能,為用戶生成標(biāo)簽。
[Abstract]:In recent years, Weibo Micro blog, represented by Twitterand Sina Weibo, has developed rapidly.Attract a large number of users at the same time, accumulated a huge amount of user data.Has gradually developed into a popular favorite of the new media.Mining user characteristics from user data, providing personalized services for Weibo users, and providing relevant suggestions for enterprises and government departments make the research have great commercial and social value.In this paper, we take the Weibo content published by Weibo user as the input data, extract the keywords of Weibo, and discover the user's characteristics by the techniques of user modeling and classification. Then we add a label describing the user's characteristics for the user.In this paper, keyword extraction, user modeling and classification techniques are deeply studied. The main work is as follows: firstly, in the aspect of keyword extraction of Weibo, according to the characteristics of the short text of Weibo,TF-IDF algorithm and Text Rank algorithm are used to calculate the weight of the words in Weibo. Then the user's Weibo is transformed into a spatial vector model, and the candidate keywords are extracted by clustering algorithm.Finally, the extended keywords are filtered according to the number of adjacent changes and the number of semantic units, and the final keyword list is obtained.Effective extraction of user Weibo in the key words.Then, in the Weibo user modeling aspect, the Weibo is divided into the original Weibo, forwards Weibo, the topic #china_person-, the theme Weibo.Taking Weibo, who has been tagged, as a reference, this paper studies the differences of user characteristics between the two groups.The results show that the topic Weibo and the theme Weibo are more able to show the characteristics of the user.Based on this, a user modeling scheme based on Weibo type is proposed, which strengthens the weight of the topic Weibo and the theme Weibo in the model.The modeling effect is improved effectively.Finally, in the aspect of user label generation, the official authentication account of Sina Weibo platform is used as training data, and the keyword extraction method and user modeling scheme are used to establish tag model for official authentication account.Create a user model for the user to be tagged.Support Vector Machine (SVM) is used to generate tags for users.
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 江淇;李廣建;;用戶建模中的可重用性問題研究[J];現(xiàn)代圖書情報(bào)技術(shù);2005年12期
2 董峰;王燕;;各種用戶建模方法在個(gè)性化服務(wù)中的比較研究[J];軟件導(dǎo)刊;2013年09期
3 王巧容;趙海燕;曹健;;個(gè)性化服務(wù)中的用戶建模技術(shù)[J];小型微型計(jì)算機(jī)系統(tǒng);2011年01期
4 武瑞娟;周興社;王海鵬;王柱;;普適環(huán)境下的群體用戶建模機(jī)制研究[J];計(jì)算機(jī)科學(xué);2009年05期
5 戢n<鈞;;面向個(gè)性化服務(wù)的用戶建模相關(guān)問題研究[J];情報(bào)雜志;2006年03期
6 楊濤,王云莉,肖田元,張林宣;主動(dòng)設(shè)計(jì)知識(shí)服務(wù)系統(tǒng)中的用戶建模研究[J];系統(tǒng)仿真學(xué)報(bào);2003年02期
7 牛亞真;祝忠明;;個(gè)性化服務(wù)中跨系統(tǒng)用戶建模方法研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2012年05期
8 余先虎,馬敏飛;Internet個(gè)性化服務(wù)及其發(fā)展[J];寧波廣播電視大學(xué)學(xué)報(bào);2004年03期
9 張瑜;蘇曉路;劉世洪;李景;胡海燕;;基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2009年11期
10 張建華;汪強(qiáng);馬新明;席磊;;無公害農(nóng)產(chǎn)品認(rèn)證資源共享中的用戶建模研究[J];河南科學(xué);2013年01期
相關(guān)會(huì)議論文 前1條
1 譚繼志;羅匡;王衡;汪國平;;智能接聽系統(tǒng)中的用戶建模與算法研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前2條
1 應(yīng)曉敏 竇文華;技術(shù)架構(gòu)[N];計(jì)算機(jī)世界;2003年
2 應(yīng)曉敏 竇文華;實(shí)現(xiàn)途徑[N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前3條
1 應(yīng)曉敏;面向Internet個(gè)性化服務(wù)的用戶建模技術(shù)研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2003年
2 潘建國;基于語義的用戶建模技術(shù)與應(yīng)用研究[D];上海大學(xué);2009年
3 李文峰;基于主題模型的用戶建模研究[D];北京郵電大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 周豐;面向需求的用戶建模及服務(wù)推薦研究[D];復(fù)旦大學(xué);2014年
2 黎斌;面向URL的用戶建模關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年
3 孫興東;基于微博內(nèi)容的博主標(biāo)簽生成關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
4 朱東雪;基于潛在主題的個(gè)性化搜索引擎用戶建模[D];西北師范大學(xué);2016年
5 李榮;人機(jī)交互中用戶建模方法的研究[D];南京師范大學(xué);2004年
6 張煒;個(gè)性化推薦系統(tǒng)中基于本體的用戶建模研究[D];南京理工大學(xué);2007年
7 劉茵;基于網(wǎng)頁標(biāo)記和詞組的用戶建模技術(shù)[D];廣西大學(xué);2007年
8 張瑜;基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)研究[D];中國農(nóng)業(yè)科學(xué)院;2009年
9 李馳;基于XML的個(gè)性化信息服務(wù)[D];河北大學(xué);2005年
10 吳陽s,
本文編號(hào):1731945
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1731945.html