基于社會化媒體的觀點和行為挖掘研究
本文選題:觀點分析 + 行為分析。 參考:《北京郵電大學(xué)》2014年博士論文
【摘要】:隨著Web2.0技術(shù)的發(fā)展,互聯(lián)網(wǎng)在線服務(wù)已經(jīng)逐漸變成人們?nèi)粘I钪胁豢苫蛉钡慕M成部分。網(wǎng)絡(luò)使用過程中所產(chǎn)生的文字、圖像、音頻、視頻以及服務(wù)使用記錄等共同構(gòu)成互聯(lián)網(wǎng)UGC(用戶生成內(nèi)容)的海洋。一方面,新技術(shù)的應(yīng)用和流行能夠為人們?nèi)粘I顜碇T多便利,因而激發(fā)用戶需求的日益膨脹。另一方面,新技術(shù)的誕生、成熟以及應(yīng)用階段也面臨著各類挑戰(zhàn)和困難,從而產(chǎn)生諸多亟需解決的問題。本文從四個方面對社會化媒體上的用戶觀點和行為進行分析和研究。 第一,提出一種基于反義距離概念的反義疑問觀點的特征構(gòu)建方法以及觀點文本建模方法。由于互聯(lián)網(wǎng)文本具有海量,不規(guī)范,短文本等特性,本文提出用反義距離RDT概念篩選語言模式來構(gòu)建特征庫,并利用組特征GF計算文本和特征庫之間的相似程度。驗證實驗結(jié)果表明該方法在多種機器學(xué)習(xí)分類算法下能夠達到較高的識別準(zhǔn)確率,同時由于特征向量被降維,能夠減少建模的時間開銷。文中亦對平滑因子以及反義特征庫篩選閾值參數(shù)對識別準(zhǔn)確率的影響進行分析和討論。 第二,提出一種基于結(jié)構(gòu)性上下文的主觀表述庫擴展方法。由于基于詞典的擴展方法新詞發(fā)現(xiàn)能力受限,擴展規(guī)模較小,依賴分詞和詞性工具等不足;另外,基于語料庫的利用連接詞語言規(guī)則和基于共現(xiàn)規(guī)則發(fā)現(xiàn)主觀表述的方法存在對備選主觀表述覆蓋度低的不足。因此,本文選用結(jié)構(gòu)上下文來指導(dǎo)主觀表述庫的擴展,它利用信息量和點互信息PMI概念來度量結(jié)構(gòu)上下文對于種子詞匯出現(xiàn)事件的預(yù)測能力,以及上下文和備選表述的使用環(huán)境相似性,并計算和推斷備選表述的主觀性指標(biāo)值。驗證實驗結(jié)果表明該方法能有效地構(gòu)建精準(zhǔn),新穎主觀表述庫,并能充分補充其它方法生成的表述庫。 第三,提出一種計算知識分享社區(qū)中用戶知識貢獻能力的方法。傳統(tǒng)知識分享網(wǎng)站由于社交特性的加入,知識從原本存儲于服務(wù)器上的靜態(tài)內(nèi)容轉(zhuǎn)變分散在各個潛在用戶處的動態(tài)知識。服務(wù)核心任務(wù)由查詢-內(nèi)容相似性識別轉(zhuǎn)變?yōu)闈撛谟脩糁R提供能力度量上。本文對用戶活躍度,內(nèi)容質(zhì)量以及社會影響力幾個角度的能力指標(biāo)進行分析和量化,通過改進的社會網(wǎng)路鏈接分析方法來得到綜合指標(biāo),生成系統(tǒng)推薦用戶列表。此外,文中還對全網(wǎng)迭代值的計算收斂性進行分析和研究。驗證實驗結(jié)果表明知識貢獻能力模型能夠有效為用戶的各方面能力進行綜合建模,防止單一指標(biāo)出現(xiàn)的篩選偏差。文中對衰減因子對用戶能力篩選傾向性影響以及計算收斂性的影響進行分析和討論。此外,文中還提供不同能力指標(biāo)對于綜合能力貢獻權(quán)重的分配方案。 第四,提出一種計算互聯(lián)網(wǎng)微博用戶媒體信息能力的方法。微博上海量用戶帳號給新注冊用戶篩選待訂閱的信息源帳號帶來障礙,本文提出媒體源能力模型來衡量微博賬號提供新聞內(nèi)容的能力。該方法量化用戶的個人活躍度、用戶所提供內(nèi)容的可信程度、用戶所提供的內(nèi)容量、用戶穩(wěn)定輸出內(nèi)容的能力。通過集中意見模型加權(quán)波達排序方法將不同能力空間的排序結(jié)果映射到統(tǒng)一的度量指標(biāo)上,得到用戶媒體能力的最終排序結(jié)果。驗證實驗結(jié)果表明媒體能力模型能夠有效刻畫用戶提供媒體資訊內(nèi)容的能力,遴選出綜合能力表現(xiàn)突出的賬號。
[Abstract]:With the development of Web2.0 technology, Internet online service has gradually become an integral part of people's daily life. The words, images, audio, video and service records produced in the process of network use constitute the ocean of the Internet UGC (user generated internal capacity). On the one hand, the application and popularity of new technology On the other hand, the birth, maturity and application of the new technology are facing various challenges and difficulties, and there are many problems to be solved. This paper analyzes and studies the views and behavior of the user in the social media from four aspects. Study.
First, a feature building method of antisense query based on antisense distance concept and a method of view text modeling are proposed. Because the Internet text has the characteristics of mass, nonstandard, short text and so on, this paper proposes an antisense distance RDT concept screening language model to construct the feature library, and uses the group feature GF to compute the text and feature library. The experimental results show that the method can achieve higher recognition accuracy in a variety of machine learning classification algorithms. At the same time, the time overhead of modeling can be reduced because of the feature vector being reduced. The effect of filtering threshold parameters on the recognition accuracy is analyzed and the effect of the filtering threshold parameters on the smoothing factor and the antisense feature library is also analyzed. Discuss.
Second, a subjective expression library extension method based on structural context is proposed. Due to the limited ability of the new word discovery based on the dictionary extension method, the expansion size is smaller, the word segmentation and the word based tools are not enough. In addition, the method of using the corpus based language rules and the co-occurrence rules to find the subjective expression is opposite. Therefore, this paper uses the structure to guide the expansion of the subjective expression library. It uses the information quantity and the point mutual information PMI concept to measure the prediction ability of the structure context to the occurrence of the seed vocabulary events, and the context and the alternative table of the use of the environmental similarity, and calculate and deduce the alternatives. The experimental results show that the method can effectively construct the precision, the novel subjective expression library, and can fully supplement the expression library generated by other methods.
Third, a method of computing knowledge sharing the knowledge contribution ability of the user in the community. The traditional knowledge sharing website, due to the social characteristics, changes the dynamic knowledge from the static content originally stored on the server. The service core task is transformed from the query to the content similarity recognition to the potential. This paper analyzes and quantifies the ability indexes of user activity, content quality and social influence, and obtains the comprehensive index by improving the social network link analysis method, and generates the list of recommended users. In addition, the convergence of the iterative value of the whole network is also carried out in this paper. Analysis and research. The experimental results show that the knowledge contribution capability model can effectively build a comprehensive model for all aspects of the user's ability, and prevent the screening deviation of the single index. In this paper, the influence of attenuation factor on the user ability screening tendency and the influence of calculation convergence are analyzed and discussed. In addition, the difference is also provided in the paper. The allocation scheme of ability index for comprehensive ability contribution weight.
Fourth, a method to calculate the information ability of Internet micro-blog user media is proposed. The user account number of micro-blog Shanghai is an obstacle to the new registered user to select the information source account to be subscribed to. This paper proposes a media source capability model to measure the ability of the micro-blog account to provide news content. This method quantifies the user's personal activity, and the user proposes The credibility of the content, the internal capacity provided by the user, the ability of the user to stabilize the content of the content. By mapping the sorting results of the different capacity spaces to the unified metric by the weighted Boda sorting method of the centralized opinion model, the final sorting result of the user media ability is obtained. The experimental results show that the media capability model can be used. It effectively depicts the ability of users to provide media information content and selects outstanding accounts with comprehensive capabilities.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP393.09;TP391.1
【共引文獻】
相關(guān)期刊論文 前10條
1 劉喜文;鄭昌興;王文龍;湯剛強;;構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J];圖書與情報;2013年05期
2 龍瓏;鄧偉;元昌安;;綠色網(wǎng)絡(luò)博客評論系統(tǒng)的提取方法[J];桂林理工大學(xué)學(xué)報;2014年01期
3 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點關(guān)鍵度排序方法[J];北京郵電大學(xué)學(xué)報;2014年S1期
4 張勝;;譜聚類在圖像識別中的應(yīng)用[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報;2014年02期
5 張喜平;李永樹;劉剛;王蕾;;節(jié)點重要度貢獻的復(fù)雜網(wǎng)絡(luò)節(jié)點重要度評估方法[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年03期
6 龔衛(wèi)華;郭偉鵬;楊良懷;;信任網(wǎng)絡(luò)中多維信任序列模式挖掘方法研究[J];電子與信息學(xué)報;2014年08期
7 陸浩;牛振東;張楠;孫星愷;劉文禮;;基于句法與主題擴展的中文微博情感傾向性分析模型[J];北京理工大學(xué)學(xué)報;2014年08期
8 吳哲;郭宇春;陳常嘉;;基于用戶關(guān)系的在線社會網(wǎng)絡(luò)關(guān)鍵用戶識別算法[J];北京交通大學(xué)學(xué)報;2014年05期
9 楊桂芳;;網(wǎng)絡(luò)評論挖掘關(guān)鍵技術(shù)與方法研究概述[J];計算機光盤軟件與應(yīng)用;2014年22期
10 田秀霞;宋羊力;朱濤;王曉玲;;基于用戶相似度度量的有效社區(qū)Leader選舉方法[J];燕山大學(xué)學(xué)報;2014年06期
相關(guān)會議論文 前3條
1 余傳明;陳雷;張小青;;基于支持向量機的產(chǎn)品屬性識別研究[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
2 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點關(guān)鍵度排序方法[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
3 紀(jì)雪梅;王芳;;在線社交網(wǎng)絡(luò)用戶情感傳播研究[A];2013中國信息經(jīng)濟學(xué)會學(xué)術(shù)年會暨博士生論壇論文集[C];2013年
相關(guān)博士學(xué)位論文 前10條
1 楊銘;社會化媒體的環(huán)境掃描與情報分析[D];哈爾濱工業(yè)大學(xué);2012年
2 崔亮;投資者情緒的統(tǒng)計測評及其應(yīng)用研究[D];西南財經(jīng)大學(xué);2013年
3 馬琳;面向移動互聯(lián)網(wǎng)的開放服務(wù)技術(shù)架構(gòu)及若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2013年
4 李朋;異構(gòu)信息網(wǎng)絡(luò)分析模型及其應(yīng)用研究[D];重慶大學(xué);2013年
5 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
6 檀曉紅;基于推薦及遺傳算法的個性化課程生成與進化研究[D];上海交通大學(xué);2013年
7 鄧莎莎;支持決策研討的文本分析方法研究[D];上海交通大學(xué);2013年
8 Gebeyehu Belay Gebremeskel;面向商業(yè)智能的數(shù)據(jù)挖掘算法和多智能體系統(tǒng)的體系結(jié)構(gòu)以及優(yōu)化[D];重慶大學(xué);2013年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 宋蘇蘇;土壤肥力評價方法研究[D];西北農(nóng)林科技大學(xué);2011年
2 陳常青;多屬性組合決策方法研究[D];中南大學(xué);2006年
3 費成良;組合評價方法及其應(yīng)用研究[D];中南大學(xué);2008年
4 王美霞;面向主題的元搜索引擎技術(shù)研究與系統(tǒng)實現(xiàn)[D];天津理工大學(xué);2013年
5 劉微;材料類型對計算障礙兒童數(shù)認知的影響[D];湖南師范大學(xué);2013年
6 薛賓;基于評價搭配的產(chǎn)品情感傾向聚類方法研究[D];山西大學(xué);2013年
7 張濤;Web教學(xué)資源采集中超鏈接可采集度評價研究[D];南京師范大學(xué);2013年
8 馬桂香;評論文本的多方面觀點挖掘研究[D];北京交通大學(xué);2013年
9 汪毅峰;基于數(shù)據(jù)挖掘的個性化推薦系統(tǒng)的研究與設(shè)計[D];南昌大學(xué);2013年
10 許斌;中文微博的情感分析和影響力技術(shù)研究[D];解放軍信息工程大學(xué);2013年
,本文編號:1942552
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1942552.html