在線社會網(wǎng)絡關(guān)鍵用戶挖掘方法研究
本文選題:在線社會網(wǎng)絡 切入點:關(guān)鍵用戶 出處:《哈爾濱工程大學》2016年博士論文 論文類型:學位論文
【摘要】:近年來,Facebook、Twitter、微博、微信等社交網(wǎng)站已經(jīng)逐漸成為人們?nèi)粘I钪械闹饕缃磺。人們可以隨時隨地通過社交媒體建立各種交互關(guān)系,從而產(chǎn)生了不同層次和粒度的虛擬在線社交網(wǎng)絡。在線社會網(wǎng)絡由動態(tài)變化的用戶和他們的交互關(guān)系組成,以支撐網(wǎng)絡信息和數(shù)據(jù)的即時交換。因此,在線社會網(wǎng)絡關(guān)鍵用戶挖掘方法研究可以幫助企業(yè)進行產(chǎn)品推廣、幫助政府進行輿情分析、預警與調(diào)控,具有實際應用價值。本文以真實的在線社會網(wǎng)絡數(shù)據(jù)為研究對象,主要針對熱點話題意見領袖挖掘、持久話題中關(guān)鍵人物分析、信息溯源研究中關(guān)鍵用戶提取、信息傳播引擎節(jié)點挖掘等問題展開研究,并在虛假信息控制和高效網(wǎng)絡營銷上進行了應用性研究。本文的研究內(nèi)容主要包括以下四個部分:首先,現(xiàn)有的意見領袖挖掘算法都沒有考慮在特定話題中來分析用戶的重要程度,應用傳統(tǒng)聚類方法很難把某一話題的相關(guān)帖子準確地識別并聚類到一起,傳統(tǒng)的熱點話題意見領袖挖掘方法很難達到預期效果,而且文本的情感分析在輿論領袖挖掘中的應用問題也有待解決。本文提出一種基于話題模型的意見領袖挖掘算法TOLM(Topic Opinion Leader Mining),以真實 BBS(Bulletin Board System)論壇為研究對象,應用 LDA(Latent Dirichlet Allocation)話題模型計算標題的相似度并自動聚類,構(gòu)建變規(guī)模用戶回復關(guān)系網(wǎng)絡模型,通過社會網(wǎng)絡分析得到意見領袖以及不同觀點派別,能有效捕捉輿情并分析輿論傳播特點,對及時疏導輿情有一定意義。本文提出的意見領袖挖掘算法旨在快速發(fā)現(xiàn)某一網(wǎng)絡熱門事件中的意見領袖,綜合考慮的帖子的話題屬性、情感傾向和網(wǎng)絡結(jié)構(gòu)關(guān)系,具有較高的實用性。其次,作為一個實時性公共信息平臺,BBS上的話題分為突發(fā)性話題和持久性話題,其中持久性話題多為貼近生活的民生話題,擁有較長的時間跨度。持久話題中關(guān)鍵用戶挖掘的難點在于持久話題的發(fā)現(xiàn)與提取和稀疏網(wǎng)絡中關(guān)鍵節(jié)點挖掘;诖,文章提出持久性話題中關(guān)鍵人物的分析方法,主要包括持久話題的識別算法和在持久話題社會網(wǎng)絡中通過情感加權(quán)的節(jié)點位置分析來提取關(guān)鍵人物的算法兩部分。持久話題的識別主要結(jié)合LDA模型和相似度模型并在時間軸上進行刻畫。關(guān)鍵人物提取為一種考慮了鄰居節(jié)點的位置、網(wǎng)絡中節(jié)點關(guān)系的強弱及情感傾向的局部節(jié)點位置確定方法。算法在真實數(shù)據(jù)集驗證了有效性。再次,做為一種典型的社交網(wǎng)絡平臺,微博信息傳播速度快,如何準確鎖定信息的精準源頭是輿情預警的關(guān)鍵。針對現(xiàn)有的算法僅僅找到時間戳最早的節(jié)點,沒有考慮節(jié)點的社會網(wǎng)絡關(guān)系(好友、關(guān)注等)和信息的語義關(guān)系的問題,本章以新媒體微博信息傳播機制為例,提出了一種信息傳播溯源算法ITEAE(Initiators and Early Adopters Extraction)。首先,根據(jù)微博轉(zhuǎn)發(fā)關(guān)系建立級聯(lián)(會話樹)并按主題相關(guān)性進行聚類得到級聯(lián)的集合(會話森林);其次,結(jié)合用戶關(guān)系網(wǎng)和信息級聯(lián)關(guān)系網(wǎng)確定微博信息的真正發(fā)起者;再次,通過文本情感分析和信息級聯(lián)關(guān)系迭代計算節(jié)點的影響力指數(shù)和從眾指數(shù),提取微博信息早期重要參與者;最后,分析發(fā)起者和早期重要參與者確定信息源頭并進行實驗評估,并通過刪除優(yōu)質(zhì)源頭節(jié)點和全局高影響力節(jié)點來控制虛假信息的傳播,實驗在新浪微博數(shù)據(jù)集上驗證了算法的有效性。相比于已有的研究,本文算法能夠通過轉(zhuǎn)發(fā)關(guān)系形成的級聯(lián)集合進行信息的溯源。最后,以轉(zhuǎn)發(fā)為傳播機制微博平臺上,信息經(jīng)常以“引擎節(jié)點”為中心進行“核裂變”式傳播,挖掘這些“引擎節(jié)點”來進行微博營銷是一種成本低效率高的營銷手段。其問題的關(guān)鍵是準確尋找網(wǎng)絡中有影響力的節(jié)點作為觸發(fā)品牌知名度的少數(shù)用戶,保證在較少投入情況下獲得較大收益。基于此,文章提出了一種引擎節(jié)點挖掘算法,首先,基于微博轉(zhuǎn)發(fā)關(guān)系形成信息級聯(lián)并按時間戳進行剪枝,其次,按話題相關(guān)性生成信息級聯(lián)樹,通過計算節(jié)點的綜合擴散能力來提取不同精度下的引擎節(jié)點,最后,以這些引擎節(jié)點作為初始傳播節(jié)點進行信息傳播演化,實驗結(jié)果表明,利用引擎節(jié)點進行作為初始節(jié)點能夠使信息傳播速度更快、范圍更大。
[Abstract]:In recent years, Facebook, Twitter, micro-blog, WeChat and other social networking sites have gradually become the main social channels in people's daily life. People can set up various interactive relationship whenever and wherever possible through social media, to create a virtual network of online social network and different levels of granularity. The online social network is composed of the dynamic changes of users and their interactions to exchange instant support, network information and data. Therefore, can help enterprises to promote the product key users of online social network mining method research, public opinion analysis of government help, warning and controlling, and has practical application value. Based on the data of real online social network as the research object, mainly aimed at the hot topic opinion leader mining and analysis key figures lasting topic, key user research information traceability extraction, information dissemination engine node digging questions Study, and Application Research on false information control and efficient network marketing. The main contents of this paper include the following four parts: firstly, the existing opinion leader mining algorithms do not consider the degree of importance in specific topics to analyze the user's application, the traditional clustering method is very difficult to post a topic the accurate identification and clustering together, hot topic opinion leaders in the traditional mining method is difficult to achieve the desired effect, and text sentiment analysis application in opinion leaders in mining has yet to be resolved. This paper proposes a mining algorithm of TOLM topic model based on opinion leaders (Topic Opinion Leader Mining), with the real BBS (Bulletin Board System) forum as the research object, the application of LDA (Latent Dirichlet Allocation) similarity calculation model and title topic clustering, construction of variable size Users reply relation network model, through social network analysis from different views of opinion leaders and factions, can effectively capture the public opinion and public opinion analysis, has a certain significance for timely public opinion. This opinion leader mining algorithm is designed to quickly find a network of popular events in the opinion leaders, considering the topic attribute post that sentiment and network structure, with high practicality. Secondly, as a real-time public information platform, BBS on the topic is divided into hot topics and persistent topics, including persistent topic for people's livelihood topics close to the life, have a longer time span. Key users lasting topic mining is the key node discovery and lasting topic extraction and sparse network mining. Based on this, the article puts forward analysis method of key figures in the main topic of persistence. To identify algorithm including persistent topic and emotion in the weighted by enduring subject in social network node location analysis to extract two part of key figures. The main topic lasting recognition algorithm based on LDA model and similarity model is described in the time axis. The key figure extraction as a consideration to the neighbor node location, local node strength and emotion node relationship in the network. The method to determine the set of algorithms to verify the effectiveness of the real data. Again, as a typical social network platform, micro-blog information dissemination speed, how to accurately accurately lock source of information is the key node for public opinion warning. Existing algorithms only to find the time at the earliest, did not consider the relationship between the social network nodes (friends, attention) semantic relations and information problems, this chapter takes the information dissemination mechanism of new media micro-blog For example, ITEAE proposed an information dissemination algorithm (Initiators and Early Adopters of Extraction). First, according to micro-blog forwarding relationship cascade (session tree) and clustering set by topic correlation (cascade forest; secondly, combined with the session) to determine the real information of the user micro-blog initiator network and information cascade again, through the network; text sentiment analysis and information cascade iterative computation node influence index and conformity index, information extraction of micro-blog early participants; finally, analysis of the initiator and the early participants determine source of information and experimental evaluation, and transmitted by the source node and the global high quality delete node to control the influence of false information. Experiments verify the effectiveness of the algorithm in Sina micro-blog data set. Compared to the existing research, this algorithm can by forwarding relationship The formation of a set of information cascade traceability. Finally, the communication mechanism of the micro-blog platform for forwarding information, often with "engine node" as the center of "fission" type of communication, these "mining engine node" to micro-blog marketing is a kind of high efficiency low cost marketing tool. The key problem is accurately find influential nodes in the network as a trigger for a few users of brand awareness, ensure in less investment under the condition of large gains. Based on this, this paper proposes a mining algorithm engine node, first of all, micro-blog information and forwarding relationship between cascade pruning, according to the time stamp based on second generation information cascade by topic correlation the tree, through comprehensive diffusion capacity calculation of node to node extraction engine, different accuracy. Finally, with these engines as the initial node node dissemination of information dissemination and evolution, The experimental results show that the use of the engine node as the initial node can make the information spread faster and wider.
【學位授予單位】:哈爾濱工程大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:G206;TP393.09
【相似文獻】
相關(guān)期刊論文 前10條
1 楊建梅;王舒軍;陸履平;莊東;;廣州軟件產(chǎn)業(yè)社會網(wǎng)絡與競爭關(guān)系復雜網(wǎng)絡的分析與比較[J];管理學報;2006年06期
2 彭蘭;;從社區(qū)到社會網(wǎng)絡——一種互聯(lián)網(wǎng)研究視野與方法的拓展[J];國際新聞界;2009年05期
3 王琪;;嵌入互聯(lián)網(wǎng)中的社會網(wǎng)絡—企業(yè)電子社會網(wǎng)絡[J];企業(yè)經(jīng)濟;2011年04期
4 李春霞;;網(wǎng)絡媒體對社會網(wǎng)絡的影響[J];河北大學學報(哲學社會科學版);2013年01期
5 阮冰;朱建沖;姜禮平;汲萬鋒;;基于社會網(wǎng)絡的民意形成演化建模與仿真研究[J];計算機仿真;2011年02期
6 劉晶;張秀蘭;;談社會網(wǎng)絡在圖書館的應用[J];新世紀圖書館;2011年09期
7 秦紅霞;陳華東;;社會網(wǎng)絡視角的企業(yè)知識共享演化博弈分析[J];情報雜志;2009年05期
8 王煜全;;警惕互聯(lián)網(wǎng)上的“國家模式”——再談社會網(wǎng)絡的進化機制[J];互聯(lián)網(wǎng)周刊;2011年02期
9 陳萍;;社會網(wǎng)絡中企業(yè)知識資源的互補性[J];圖書與情報;2007年05期
10 黎剛;;文獻信息社會網(wǎng)絡建設新論[J];職業(yè)技術(shù);2007年24期
相關(guān)會議論文 前10條
1 郭永昌;;中國大城市流動人口社會網(wǎng)絡構(gòu)筑的空間過程研究[A];2006年中國可持續(xù)發(fā)展論壇——中國可持續(xù)發(fā)展研究會2006學術(shù)年會經(jīng)濟發(fā)展與人文關(guān)懷專輯[C];2006年
2 程平;;基于社會網(wǎng)絡的“云會計”知識流動研究[A];第十屆全國會計信息化年會論文集[C];2011年
3 馬宗正;楊永芳;;貧困地區(qū)農(nóng)村社會網(wǎng)絡與農(nóng)民發(fā)展——對寧夏固原市五個村落的調(diào)查與思考[A];西部發(fā)展評論(2005年第2期 總第16期)[C];2005年
4 陸雙梅;;藏民社會網(wǎng)絡在手機中的呈現(xiàn)與重構(gòu)[A];第四屆中國少數(shù)民族地區(qū)信息傳播與社會發(fā)展論叢[C];2012年
5 周靜;;社會網(wǎng)絡在營銷實踐中的研究初探[A];中國高等院校市場學研究會2011年年會論文集[C];2011年
6 周尚意;吳莉萍;王策;;都市更新中社區(qū)社會網(wǎng)絡變遷的結(jié)構(gòu)主義分析——以北京西單南太常社區(qū)整體搬遷為例[A];中國地理學會百年慶典學術(shù)論文摘要集[C];2009年
7 陳忠衛(wèi);王志成;;社會資本對企業(yè)成長的推動作用分析[A];2004年中國管理科學學術(shù)會議論文集[C];2004年
8 陳典全;黃朝陽;;基于位置的社會網(wǎng)絡(LBSN)研究及其產(chǎn)業(yè)化[A];第二屆中國衛(wèi)星導航學術(shù)年會電子文集[C];2011年
9 李莉;武邦濤;陳忠;;社會網(wǎng)絡作為雙刃劍:交易網(wǎng)絡的摩擦、中介可能性與結(jié)構(gòu)洞[A];第五屆全國復雜網(wǎng)絡學術(shù)會議論文(摘要)匯集[C];2009年
10 郭彥麗;;社會網(wǎng)絡視角下組織內(nèi)部信息資源共享研究[A];信息資源配置理論與模型研究——2009信息化與信息資源管理學術(shù)研討會專集[C];2009年
相關(guān)重要報紙文章 前10條
1 本報記者 范昕;面對巨大的社會網(wǎng)絡,你無法獨立存在[N];文匯報;2013年
2 本報記者 蔡雙喜;家政服務員如何建構(gòu)社會網(wǎng)絡[N];中國婦女報;2013年
3 ;Google對搜索人感興趣[N];計算機世界;2004年
4 周麗萍;社會資本在保險業(yè)發(fā)展中的作用[N];中國保險報;2003年
5 席來旺;社會網(wǎng)絡提高競爭優(yōu)勢[N];人民日報;2007年
6 沈慧婷 本報記者 丁秀偉;從“擇偶途徑”看改革30年婚戀變遷[N];中國婦女報;2008年
7 北京大學博士后 山東大學教授 博導 李春霞;家政服務員的社會網(wǎng)絡及其城鄉(xiāng)差異[N];中國婦女報;2013年
8 賈利強;人物研究須重視社會網(wǎng)絡與日常生活[N];中國社會科學報;2011年
9 梁捷;節(jié)點人際關(guān)系[N];經(jīng)濟觀察報;2012年
10 ;加強理論研究 推動社會發(fā)展[N];中國社會科學院報;2008年
相關(guān)博士學位論文 前10條
1 周雪妍;在線社會網(wǎng)絡關(guān)鍵用戶挖掘方法研究[D];哈爾濱工程大學;2016年
2 杜曉林;大規(guī)模社會網(wǎng)絡可視化若干問題及算法研究[D];哈爾濱工業(yè)大學;2015年
3 李棟;在線社會網(wǎng)絡中信息擴散研究[D];哈爾濱工業(yè)大學;2014年
4 易成岐;社會網(wǎng)絡的信息傳播機制及控制方法研究[D];哈爾濱理工大學;2016年
5 張伯雷;社會網(wǎng)絡信息傳播與影響力最大化研究[D];南京大學;2016年
6 王萬元;基于多Agent技術(shù)的異質(zhì)社會網(wǎng)絡群組形成方法研究[D];東南大學;2016年
7 周一峰;非可靠社會網(wǎng)絡中多Agent系統(tǒng)任務合作的自適應機制研究[D];東南大學;2016年
8 吳鴻;社會網(wǎng)絡中競爭與合作影響最大化研究[D];云南大學;2016年
9 張靜;社會網(wǎng)絡影響力建模與度量[D];清華大學;2016年
10 李文金;創(chuàng)業(yè)者社會網(wǎng)絡的演化過程研究[D];吉林大學;2012年
相關(guān)碩士學位論文 前10條
1 吳迪;《在線社會網(wǎng)絡中產(chǎn)生信任評價的可信圖》翻譯實踐報告[D];內(nèi)蒙古大學;2015年
2 于洋;國有企業(yè)高管社會網(wǎng)絡與企業(yè)創(chuàng)新行為關(guān)系研究[D];遼寧大學;2015年
3 周新;建筑行業(yè)農(nóng)民工社會網(wǎng)絡對收入狀況的影響研究[D];西南交通大學;2015年
4 閆晶星;基于敏感關(guān)系的社會網(wǎng)絡隱私保護方法研究[D];河北工程大學;2015年
5 王美;社會網(wǎng)絡視角下的裝備制造業(yè)產(chǎn)業(yè)集群創(chuàng)新研究[D];集美大學;2015年
6 杜宇;社會網(wǎng)絡對中小企業(yè)融資可獲性的作用[D];蘇州大學;2015年
7 張玉志;社會網(wǎng)絡中知識流動的邏輯研究[D];西南大學;2015年
8 王利娟;都市菜販的社會網(wǎng)絡建構(gòu)[D];西南大學;2015年
9 李超;多維社會網(wǎng)絡上的信息挖掘問題研究[D];電子科技大學;2014年
10 王詩懿;GraphLab云計算平臺下社會網(wǎng)絡的社區(qū)識別[D];寧波大學;2015年
,本文編號:1579046
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/1579046.html