融入公眾情感投入的微博話題快速發(fā)現(xiàn)及影響力度量方法
本文關(guān)鍵詞:融入公眾情感投入的微博話題快速發(fā)現(xiàn)及影響力度量方法
更多相關(guān)文章: 微博 話題發(fā)現(xiàn) 情感詞 情感密集期 影響力評估
【摘要】:隨著移動社交網(wǎng)絡(luò)的快速發(fā)展,以微博為代表的短文本信息大量涌現(xiàn),并以幾何方式保持增長,具有非結(jié)構(gòu)化、海量性、實時性、自媒體性等特點。聚集大量涉及公眾日常生活有價值的信息,稱之為話題。微博文本在移動互聯(lián)網(wǎng)時代正慢慢承擔著短信、博客、即時通訊等功能,不同于傳統(tǒng)新聞,不受標題、關(guān)鍵字等固定格式拘束,同時大量短文本信息的同時涌入也為話題信息的抓取、提煉過程帶來挑戰(zhàn)。微博作為一種移動社交工具,話題信息新穎性、影響力的需求越來越受到公眾關(guān)注,在恰當?shù)臅r間、地點發(fā)現(xiàn)最有價值的話題也逐漸成為保持用戶活躍度的重要手段,而傳統(tǒng)話題發(fā)現(xiàn)方法不能滿足相關(guān)話題的發(fā)現(xiàn)質(zhì)量需求。因此,如何解決海量數(shù)據(jù)環(huán)境下的微博話題發(fā)現(xiàn)效率以及發(fā)現(xiàn)質(zhì)量問題,從而更好地挖掘分析移動環(huán)境下的網(wǎng)絡(luò)信息,已成為新的研究熱點。 基于以上問題,本文提出了一種融入公眾情感投入的微博話題快速發(fā)現(xiàn)及影響力度量方法,主要研究內(nèi)容包括以下幾個方面: 第一,針對海量的微博文本,本文提出了一種融入公眾情感投入的微博話題快速發(fā)現(xiàn)方法。主要由情感詞庫構(gòu)建、情感密集期檢測、微博話題發(fā)現(xiàn)三部分組成。第一部分,基于大規(guī)模微博語料庫和三大著名情感詞集,采用TFDF值以及雙字Hash索引表實現(xiàn)具體情感詞庫的構(gòu)建;第二部分,基于Sigmoid函數(shù)挖掘情感密集期,抽取相應(yīng)情感文本;第三部分,基于改進的模糊聚類算法,在約簡后的文本集中,建立名詞性實體表,不斷迭代優(yōu)化目標函數(shù)。該方法以情感詞為基礎(chǔ),在微博話題發(fā)現(xiàn)中融入公眾情感,可以有效約簡微博文本集,大幅提升信息處理效率,發(fā)現(xiàn)高質(zhì)量話題。 第二,本文根據(jù)情感詞與文本數(shù)的依存關(guān)系提出了情感密集期的概念。情感密集期挖掘算法綜合考慮了微博的傳播特性,融入微博轉(zhuǎn)發(fā)、評論等影響因素,采用了Sigmoid函數(shù)抑制高頻次商業(yè)微博對話題發(fā)現(xiàn)的影響,可以有效挖掘公眾情感投入的密集期,提升話題發(fā)現(xiàn)質(zhì)量與效率。 第三,隨著移動互聯(lián)網(wǎng)的高速發(fā)展,人們越來越離不開社交網(wǎng)絡(luò)。為解決用戶節(jié)點在社交網(wǎng)絡(luò)中的差異化影響問題,本文提出了一種融入公眾情感投入的用戶節(jié)點影響力度量方法。研究新興網(wǎng)絡(luò)結(jié)構(gòu)下的微博用戶影響力評估方法,避免用戶話題興趣差異造成的影響。主要從用戶的真實情感表達出發(fā),以情感詞為基礎(chǔ)定義了用戶的話題情感濃度值,衡量用戶對話題的興趣,提升影響力評估精度。
【關(guān)鍵詞】:微博 話題發(fā)現(xiàn) 情感詞 情感密集期 影響力評估
【學(xué)位授予單位】:浙江工商大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要2-4
- ABSTRACT4-7
- 目錄7-9
- 第1章 緒論9-17
- 1.1 研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 傳統(tǒng)話題研究11-12
- 1.2.2 微博話題研究12
- 1.2.3 微博話題影響力傳播12-13
- 1.2.4 現(xiàn)狀總結(jié)13-14
- 1.3 本文研究內(nèi)容及組織架構(gòu)14-17
- 第2章 相關(guān)介紹及理論研究17-33
- 2.1 微博相關(guān)概述17-18
- 2.2 微博挖掘技術(shù)18-23
- 2.2.1 微博挖掘表征模型18-20
- 2.2.2 微博數(shù)據(jù)模型及常用聚類算法研究20-23
- 2.3 微博話題發(fā)現(xiàn)技術(shù)23-33
- 2.3.1 微博話題特點分析23-24
- 2.3.2 微博話題檢測相關(guān)技術(shù)24-27
- 2.3.3 微博話題發(fā)現(xiàn)技術(shù)27-30
- 2.3.4 微博用戶影響力評估技術(shù)30-33
- 第3章 融入公眾情感投入的微博話題快速發(fā)現(xiàn)方法33-55
- 3.1 融入公眾情感投入的微博話題快速發(fā)現(xiàn)模型33-35
- 3.1.1 基礎(chǔ)定義33-34
- 3.1.2 模型架構(gòu)34-35
- 3.2 基于情感詞的公眾情感投入衡量35-40
- 3.2.1 情感詞庫構(gòu)建35-37
- 3.2.2 情感詞庫索引37
- 3.2.3 情感密集期檢測37-40
- 3.3 改進的微博話題發(fā)現(xiàn)算法40-42
- 3.3.1 模糊聚類算法40-41
- 3.3.2 改進的微博話題發(fā)現(xiàn)算法41-42
- 3.4 實驗結(jié)果及分析42-53
- 3.4.1 實驗環(huán)境及數(shù)據(jù)采集43
- 3.4.2 數(shù)據(jù)清洗43-48
- 3.4.3 實驗數(shù)據(jù)分析48-50
- 3.4.4 實驗結(jié)果分析50-53
- 3.5 本章小結(jié)53-55
- 第4章 融入公眾情感投入的微博用戶影響力度量方法55-67
- 4.1 微博影響力傳播模式55-58
- 4.1.1 微博影響力傳播模型55-58
- 4.1.2 微博用戶行為分析58
- 4.2 融入公眾情感投入的微博用戶影響力度量方法58-61
- 4.2.1 相關(guān)問題58-59
- 4.2.2 融入話題情感濃度的微博影響力度量方法59-61
- 4.3 實驗結(jié)果及分析61-64
- 4.3.1 實驗數(shù)據(jù)分析61-62
- 4.3.2 影響力評估結(jié)果及分析62-64
- 4.4 本章小結(jié)64-67
- 第5章 總結(jié)與展望67-69
- 5.1 總結(jié)67-68
- 5.2 展望68-69
- 參考文獻69-75
- 附錄1 攻讀碩士學(xué)位期間學(xué)術(shù)成果75
- 附錄2 攻讀碩士學(xué)位期間參與的項目75-76
- 致謝76-77
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉志明;劉魯;;微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J];系統(tǒng)工程;2011年06期
2 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期
3 樊鵬翼;王暉;姜志宏;李沛;;微博網(wǎng)絡(luò)測量研究[J];計算機研究與發(fā)展;2012年04期
4 齊淼;張化祥;;改進的模糊C-均值聚類算法研究[J];計算機工程與應(yīng)用;2009年20期
5 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計算機科學(xué);2011年S1期
6 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機應(yīng)用;2009年S1期
7 張曉艷;王挺;;話題發(fā)現(xiàn)與追蹤技術(shù)研究[J];計算機科學(xué)與探索;2009年04期
8 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學(xué)報;2003年04期
9 駱衛(wèi)華;于滿泉;許洪波;王斌;程學(xué)旗;;基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J];中文信息學(xué)報;2006年01期
10 孫宏綱;陸余良;劉金紅;龔筆宏;;基于HowNet的VSM模型擴展在文本分類中的應(yīng)用研究[J];中文信息學(xué)報;2007年06期
,本文編號:616457
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/616457.html