基于專業(yè)個人微博的事件提取研究
本文關(guān)鍵詞:基于專業(yè)個人微博的事件提取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,,隨著計算機技術(shù)的大力發(fā)展和大量普及,網(wǎng)絡(luò)信息的傳播速度與數(shù)量都呈現(xiàn)出爆炸式的增長。微博客是一種新的媒體,成為了電視、廣播等傳統(tǒng)媒體的又一個新聞媒體,互聯(lián)網(wǎng)用戶普及率很高,是互聯(lián)網(wǎng)上信息的主要來源。微博和傳統(tǒng)的文本相比,人們可以更方便、實時地表達自己的看法和感受,但同時也產(chǎn)生了大量的冗余信息。 微博有著文本較短、話題快速變換和使用網(wǎng)絡(luò)語言等特點,故不同于傳統(tǒng)的文本。個人微博的表達方式與傳統(tǒng)的文本也有著很大的不同,從形式上講,個人微博內(nèi)容已文字為主,也可以包括一些表情符號、鏈接、音頻、視頻等。在內(nèi)容上,個人微博主要是分享一些生活中的事情,當(dāng)然也包括一些公共熱點。而本文所涉及的是專業(yè)個人微博,其主要討論的話題是與博主從事專業(yè)相關(guān)的,話題活動基本限定在一個專業(yè)領(lǐng)域,也包含一部分公共話題。本文所研究的專業(yè)個人微博指的是博主發(fā)表的微博內(nèi)容是與其從事領(lǐng)域相關(guān)的。 由于微博內(nèi)容簡單且移動設(shè)備普及,可以通過移動設(shè)備隨時隨地發(fā)布,所以能夠在短時間產(chǎn)生大量的數(shù)據(jù),人類所面對的網(wǎng)絡(luò)信息迅速增多。如果用人工手段來處理這樣龐大且無規(guī)則的微博信息,不僅工作量是巨大的,而且難以及時、準(zhǔn)確的找到自己所關(guān)注的信息。無數(shù)實驗結(jié)果表明,用傳統(tǒng)算法提取的專業(yè)個人微博事件效果都不理想。因此如何從大量雜亂無章的個人微博信息中快速找到自己關(guān)注的信息,是目前個人微博信息檢測技術(shù)未來的科研趨勢。 為了自動識別出博主的專業(yè)興趣活動,提出了一種基于LDA的專業(yè)個人微博事件提取算法。不斷篩選從開放平臺中獲取的微博數(shù)據(jù),不斷過濾信息價值不大的文本,符號以及無關(guān)鏈接,使用分詞工具ICTCLAS來對專業(yè)個人微博進行分詞,將特征詞的詞性標(biāo)出并剔除停用詞;其次,根據(jù)特征選擇評估函數(shù)CHI對不同特征詞對不同類別的重要程度進行衡量,再根據(jù)特征詞在同一類文本中均勻分布的原則,利用改進了的TF-IDF進行微博特征詞提取并采用LDA為語料庫建模,以此來挖掘出不同主題和詞之間的關(guān)系,使得權(quán)重較大的詞更能反映出微博主題。從而得到微博在各主題下的概率分布,并結(jié)合時間相似度計算出專業(yè)個人微博的綜合相似度,最后利用改進了的K-Means聚類,將討論同一話題的微博聚集到同一個集合中,從而與人工數(shù)據(jù)進行比對。 實驗結(jié)果驗證了該算法的有效性,同時表明了該算法可以有結(jié)構(gòu)、有條理的呈現(xiàn)出人們感興趣的微博事件。
【關(guān)鍵詞】:專業(yè)個人微博 LDA 相似度 事件提取
【學(xué)位授予單位】:內(nèi)蒙古科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要3-5
- Abstract5-10
- 1 緒論10-17
- 1.1 研究背景10-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-15
- 1.3 論文主要研究內(nèi)容15
- 1.4 本文的組織結(jié)構(gòu)15-17
- 2 微博信息提取的相關(guān)技術(shù)17-27
- 2.1 微博數(shù)據(jù)獲取17-18
- 2.2 微博預(yù)處理18-22
- 2.2.1 選取微博18-19
- 2.2.2 中文分詞及詞性標(biāo)記19-20
- 2.2.3 過濾停用詞和表情詞20-22
- 2.3 微博建模22
- 2.4 特征選擇22-25
- 2.4.1 文檔頻度22-23
- 2.4.2 信息增益23
- 2.4.3 互信息23-24
- 2.4.4 CHI 統(tǒng)計24-25
- 2.5 特征值權(quán)重計算25-26
- 2.5.1 布爾權(quán)重25
- 2.5.2 TFIDF 權(quán)重25-26
- 2.6 本章小結(jié)26-27
- 3 相似度計算方法27-31
- 3.1 基于 VSM 的相似度計算28
- 3.2 基于語義理解的相似度計算28-29
- 3.3 基于潛在語義分析的相似度計算29-30
- 3.4 本章小結(jié)30-31
- 4 基于 LDA 的專業(yè)個人微博相似度計算31-40
- 4.1 微博預(yù)處理31-32
- 4.2 改進的 TF-IDF 特征詞提取32-34
- 4.3 主題分類34-37
- 4.3.1 LDA 基本思想34-35
- 4.3.2 Gibbs 抽樣35-36
- 4.3.3 標(biāo)簽36-37
- 4.4 個人微博相似度計算37-38
- 4.4.1 主題相似度37
- 4.4.2 時間相似度37-38
- 4.4.3 綜合相似度38
- 4.5 微博事件提取38-39
- 4.6 本章小結(jié)39-40
- 5 實驗結(jié)果與分析40-44
- 5.1 實驗環(huán)境及平臺搭建40
- 5.2 微博數(shù)據(jù)收集40
- 5.3 實驗數(shù)據(jù)評價標(biāo)準(zhǔn)40-41
- 5.4 微博歸類實驗結(jié)果及分析41-42
- 5.5 本章小結(jié)42-44
- 6 總結(jié)與展望44-46
- 6.1 本文完成的工作44-45
- 6.2 不足之處和工作展望45-46
- 參考文獻46-51
- 在學(xué)研究成果51-52
- 致謝52
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳麗華;羅云鋒;符海艷;;不確定知識的相似度量方法及應(yīng)用[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年04期
2 趙宜賓;曾文藝;;基于蘊涵算子的Vague集的相似度[J];系統(tǒng)工程理論與實踐;2008年12期
3 王洪凱,管延勇,史開泉;粗集間的相似度量及其應(yīng)用[J];計算機工程與應(yīng)用;2004年31期
4 李燕;;基于WSMO算子的語言型多屬性決策模型研究[J];商場現(xiàn)代化;2009年05期
5 田野;陳東鋒;雷英杰;;基于直覺模糊相似度量的近似推理方法[J];空軍工程大學(xué)學(xué)報(自然科學(xué)版);2007年06期
6 楊潔;王鴻緒;;Vague模式排序法進行目標(biāo)價值排序[J];計算機工程與應(yīng)用;2012年02期
7 魏坤;趙永強;潘泉;張洪才;;一種改進相似度量的紅外目標(biāo)跟蹤算法[J];光子學(xué)報;2008年05期
8 王海豐;王鴻緒;張鯤;;Vague集方案優(yōu)選算法在傳動方案優(yōu)選中的應(yīng)用[J];計算機科學(xué);2013年S1期
9 李凡,蔡立晶,呂澤華;Vague集的三維表示[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2002年10期
10 蘭蓉;;基于直覺模糊集相似度量的多屬性決策方法[J];西安郵電學(xué)院學(xué)報;2010年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 陳寧;陳安;周龍驤;;混合類型數(shù)據(jù)相似度及網(wǎng)格聚類算法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 呂澤華;模糊集理論的新拓展及其應(yīng)用研究[D];華中科技大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張敏;邊界不確定性集合的相似度量的研究[D];西安電子科技大學(xué);2006年
2 賀笑;基于形狀特性的人臉相似度的描述與分析[D];南京理工大學(xué);2014年
3 高鵬;推薦系統(tǒng)中信息相似度的研究及其應(yīng)用[D];上海交通大學(xué);2013年
4 孫瑞;模糊數(shù)的相似度及其在風(fēng)險分析中的應(yīng)用[D];西華大學(xué);2013年
5 章四兵;基于相似度量的機械產(chǎn)品系統(tǒng)的分類方法研究[D];合肥工業(yè)大學(xué);2004年
6 唐志剛;Vague集理論及其應(yīng)用研究[D];廣西大學(xué);2007年
7 李哲;相似度量及其在系統(tǒng)發(fā)育分析中的應(yīng)用研究[D];湘潭大學(xué);2013年
8 朱振國;Vague集相似度量研究[D];重慶郵電大學(xué);2007年
9 王萬軍;Vague集不確定信息處理的SPA方法及應(yīng)用研究[D];蘭州大學(xué);2012年
10 孫麗;基于區(qū)間Vague集的相似度量與得分函數(shù)的決策方法及其應(yīng)用[D];安徽大學(xué);2013年
本文關(guān)鍵詞:基于專業(yè)個人微博的事件提取研究,由筆耕文化傳播整理發(fā)布。
本文編號:376940
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/376940.html