基于微博的網(wǎng)絡熱點發(fā)現(xiàn)研究
發(fā)布時間:2021-05-17 01:46
隨著Web技術的快速發(fā)展,互聯(lián)網(wǎng)上以微內(nèi)容為源的內(nèi)容形式逐漸確立了其顯著優(yōu)勢。微博(Micro-Blog)作為互聯(lián)網(wǎng)的一種媒體形式,以其簡短、便捷的特點呈現(xiàn)爆發(fā)式增長勢態(tài),由于其寫作門檻低,加上發(fā)布便捷能夠即時分享,使信息傳播時間趨向于零,已成為熱點事件產(chǎn)生、傳播的重要源地,微博的影響力也呈現(xiàn)幾何式倍增態(tài)勢,并以驚人的速度滲透到社會的各個方面。微博已成為輿情的第二大源頭,并在輿情及突發(fā)事件的轉(zhuǎn)移和擴散中扮演重要的角色。微博通過簡潔的文字(一般不超過140字)更新信息,并實現(xiàn)多種工具發(fā)布、分享,使信息在微博中呈現(xiàn)出碎片化、即時化、移動化等特性,而不再是完整的信息內(nèi)容,再加上互聯(lián)網(wǎng)微內(nèi)容具有的來源廣、更新快、參與性及互動性強的特點,一些過激的言談很容易傳染,甚至被盲目的操縱或利用,如果不能積極控制及回應,小的負面情緒也會像滾雪球一樣慢慢變大,將政府、企業(yè)或其他機構推向風口浪尖,因此,對微博中熱點事件的發(fā)現(xiàn)、監(jiān)控及管理等方面的研究工作也就越發(fā)顯地重要。本文主要在以下幾個方面做了工作:1.本文主要從微內(nèi)容產(chǎn)生的背景及意義、國內(nèi)外相關的研究現(xiàn)狀著手,闡述了本課題研究的緊迫性及必然性,分析研究了與...
【文章來源】:江蘇科技大學江蘇省
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外相關研究
1.2.1 話題發(fā)現(xiàn)與跟蹤的相關研究
1.2.2 網(wǎng)絡輿情研究
1.2.3 短文本相關研究
1.3 本文研究內(nèi)容
1.4 論文組織安排
第2章 相關技術
2.1 Web 文本挖掘技術
2.1.1 文本挖掘所用到的關鍵技術
2.2 文本聚類
2.2.1 文本模型分析
2.2.2 主要聚類算法分析
2.3 數(shù)據(jù)采集及提取技術
2.3.1 網(wǎng)絡爬蟲
2.3.2 頁面抽取技術
2.4 分詞技術
第3章 短文本聚類模型
3.1 常規(guī)文本聚類模型
3.2 短文本特性分析
3.3 短文本聚類模型的提出
3.4 具體功能分析
第4章 基于短文本的聚類過程
4.1 會話抽取
4.1.1 短文本信息流的基本特征
4.1.2 相關算法介紹
4.1.3 相關性度量及 RMR
4.1.4 算法描述
4.2 相似性計算
4.2.1 問題描述
4.2.2 相關技術分析
4.2.3 改進的相似性度量算法 TF-IDF
4.3 混合聚類算法
4.3.1 基于頻繁詞集的聚類方法
4.3.2 k-means 算法
4.3.3 混合聚類算法
第5章 實驗分析
5.1 實驗設置
5.2 實驗評測指標
5.2.1 準確率與召回率
5.3 測試數(shù)據(jù)的采集
5.4 實驗結(jié)果分析
5.4.1. 會話抽取分析
5.4.2. 聚類分析
總結(jié)與展望
參考文獻
攻讀碩士學位期間發(fā)表的論文
致謝
詳細摘要
【參考文獻】:
期刊論文
[1]數(shù)據(jù)劃分優(yōu)化的并行k-means算法[J]. 尹建君,王樂. 計算機工程與應用. 2010(15)
[2]基于字符串相似性聚類的網(wǎng)絡短文本輿情熱點發(fā)現(xiàn)技術[J]. 楊震,段立娟,賴英旭. 北京工業(yè)大學學報. 2010(05)
[3]Web文本挖掘中數(shù)據(jù)預處理技術研究[J]. 胡靜,蔣外文,朱華. 現(xiàn)代計算機(專業(yè)版). 2009(03)
[4]中文分詞技術[J]. 李淑英. 科技信息(科學教研). 2007(36)
[5]基于內(nèi)容分析的話題檢測研究[J]. 趙華,趙鐵軍,張姝,王浩暢. 哈爾濱工業(yè)大學學報. 2006(10)
[6]話題識別與跟蹤中的層次化話題識別技術研究[J]. 于滿泉,駱衛(wèi)華,許洪波,白碩. 計算機研究與發(fā)展. 2006(03)
[7]基于向量內(nèi)積不等式的分布式k均值聚類算法[J]. 倪巍偉,陸介平,孫志揮. 計算機研究與發(fā)展. 2005(09)
[8]一種基于動態(tài)進化模型的事件探測和追蹤算法[J]. 賈自艷,何清,張?,李嘉佑,史忠植. 計算機研究與發(fā)展. 2004(07)
[9]信息檢索的概率模型[J]. 邢永康,馬少平. 計算機科學. 2003(08)
[10]話題識別與跟蹤研究[J]. 李保利,俞士汶. 計算機工程與應用. 2003(17)
博士論文
[1]短語消息聚類相關技術研究[D]. 王樂.國防科學技術大學 2008
碩士論文
[1]BBS熱點話題發(fā)現(xiàn)與監(jiān)控系統(tǒng)[D]. 蘭凱梅.北京交通大學 2011
[2]基于關聯(lián)規(guī)則挖掘的查詢擴展[D]. 趙春輝.河南大學 2011
[3]面向中文Web評論的情感分析技術研究[D]. 周城.國防科學技術大學 2011
[4]基于微博的網(wǎng)絡熱點發(fā)現(xiàn)模型及平臺研究[D]. 張靜.華中科技大學 2010
[5]網(wǎng)絡輿情對我國政府決策的影響研究[D]. 金龍.安徽大學 2010
[6]Web信息抽取與網(wǎng)頁摘要的研究與應用[D]. 劉秋水.大連理工大學 2008
[7]基于Web的信息抽取技術研究[D]. 王旭東.西南交通大學 2008
[8]網(wǎng)絡輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D]. 鄭軍.哈爾濱工程大學 2007
[9]Web敏感頁面發(fā)現(xiàn)技術研究[D]. 胡紅霞.中國人民解放軍信息工程大學 2002
本文編號:3190828
【文章來源】:江蘇科技大學江蘇省
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外相關研究
1.2.1 話題發(fā)現(xiàn)與跟蹤的相關研究
1.2.2 網(wǎng)絡輿情研究
1.2.3 短文本相關研究
1.3 本文研究內(nèi)容
1.4 論文組織安排
第2章 相關技術
2.1 Web 文本挖掘技術
2.1.1 文本挖掘所用到的關鍵技術
2.2 文本聚類
2.2.1 文本模型分析
2.2.2 主要聚類算法分析
2.3 數(shù)據(jù)采集及提取技術
2.3.1 網(wǎng)絡爬蟲
2.3.2 頁面抽取技術
2.4 分詞技術
第3章 短文本聚類模型
3.1 常規(guī)文本聚類模型
3.2 短文本特性分析
3.3 短文本聚類模型的提出
3.4 具體功能分析
第4章 基于短文本的聚類過程
4.1 會話抽取
4.1.1 短文本信息流的基本特征
4.1.2 相關算法介紹
4.1.3 相關性度量及 RMR
4.1.4 算法描述
4.2 相似性計算
4.2.1 問題描述
4.2.2 相關技術分析
4.2.3 改進的相似性度量算法 TF-IDF
4.3 混合聚類算法
4.3.1 基于頻繁詞集的聚類方法
4.3.2 k-means 算法
4.3.3 混合聚類算法
第5章 實驗分析
5.1 實驗設置
5.2 實驗評測指標
5.2.1 準確率與召回率
5.3 測試數(shù)據(jù)的采集
5.4 實驗結(jié)果分析
5.4.1. 會話抽取分析
5.4.2. 聚類分析
總結(jié)與展望
參考文獻
攻讀碩士學位期間發(fā)表的論文
致謝
詳細摘要
【參考文獻】:
期刊論文
[1]數(shù)據(jù)劃分優(yōu)化的并行k-means算法[J]. 尹建君,王樂. 計算機工程與應用. 2010(15)
[2]基于字符串相似性聚類的網(wǎng)絡短文本輿情熱點發(fā)現(xiàn)技術[J]. 楊震,段立娟,賴英旭. 北京工業(yè)大學學報. 2010(05)
[3]Web文本挖掘中數(shù)據(jù)預處理技術研究[J]. 胡靜,蔣外文,朱華. 現(xiàn)代計算機(專業(yè)版). 2009(03)
[4]中文分詞技術[J]. 李淑英. 科技信息(科學教研). 2007(36)
[5]基于內(nèi)容分析的話題檢測研究[J]. 趙華,趙鐵軍,張姝,王浩暢. 哈爾濱工業(yè)大學學報. 2006(10)
[6]話題識別與跟蹤中的層次化話題識別技術研究[J]. 于滿泉,駱衛(wèi)華,許洪波,白碩. 計算機研究與發(fā)展. 2006(03)
[7]基于向量內(nèi)積不等式的分布式k均值聚類算法[J]. 倪巍偉,陸介平,孫志揮. 計算機研究與發(fā)展. 2005(09)
[8]一種基于動態(tài)進化模型的事件探測和追蹤算法[J]. 賈自艷,何清,張?,李嘉佑,史忠植. 計算機研究與發(fā)展. 2004(07)
[9]信息檢索的概率模型[J]. 邢永康,馬少平. 計算機科學. 2003(08)
[10]話題識別與跟蹤研究[J]. 李保利,俞士汶. 計算機工程與應用. 2003(17)
博士論文
[1]短語消息聚類相關技術研究[D]. 王樂.國防科學技術大學 2008
碩士論文
[1]BBS熱點話題發(fā)現(xiàn)與監(jiān)控系統(tǒng)[D]. 蘭凱梅.北京交通大學 2011
[2]基于關聯(lián)規(guī)則挖掘的查詢擴展[D]. 趙春輝.河南大學 2011
[3]面向中文Web評論的情感分析技術研究[D]. 周城.國防科學技術大學 2011
[4]基于微博的網(wǎng)絡熱點發(fā)現(xiàn)模型及平臺研究[D]. 張靜.華中科技大學 2010
[5]網(wǎng)絡輿情對我國政府決策的影響研究[D]. 金龍.安徽大學 2010
[6]Web信息抽取與網(wǎng)頁摘要的研究與應用[D]. 劉秋水.大連理工大學 2008
[7]基于Web的信息抽取技術研究[D]. 王旭東.西南交通大學 2008
[8]網(wǎng)絡輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D]. 鄭軍.哈爾濱工程大學 2007
[9]Web敏感頁面發(fā)現(xiàn)技術研究[D]. 胡紅霞.中國人民解放軍信息工程大學 2002
本文編號:3190828
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3190828.html
最近更新
教材專著