天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于專業(yè)個人微博的事件提取研究

發(fā)布時間:2017-05-18 19:17

  本文關(guān)鍵詞:基于專業(yè)個人微博的事件提取研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,,隨著計算機技術(shù)的大力發(fā)展和大量普及,網(wǎng)絡(luò)信息的傳播速度與數(shù)量都呈現(xiàn)出爆炸式的增長。微博客是一種新的媒體,成為了電視、廣播等傳統(tǒng)媒體的又一個新聞媒體,互聯(lián)網(wǎng)用戶普及率很高,是互聯(lián)網(wǎng)上信息的主要來源。微博和傳統(tǒng)的文本相比,人們可以更方便、實時地表達自己的看法和感受,但同時也產(chǎn)生了大量的冗余信息。 微博有著文本較短、話題快速變換和使用網(wǎng)絡(luò)語言等特點,故不同于傳統(tǒng)的文本。個人微博的表達方式與傳統(tǒng)的文本也有著很大的不同,從形式上講,個人微博內(nèi)容已文字為主,也可以包括一些表情符號、鏈接、音頻、視頻等。在內(nèi)容上,個人微博主要是分享一些生活中的事情,當(dāng)然也包括一些公共熱點。而本文所涉及的是專業(yè)個人微博,其主要討論的話題是與博主從事專業(yè)相關(guān)的,話題活動基本限定在一個專業(yè)領(lǐng)域,也包含一部分公共話題。本文所研究的專業(yè)個人微博指的是博主發(fā)表的微博內(nèi)容是與其從事領(lǐng)域相關(guān)的。 由于微博內(nèi)容簡單且移動設(shè)備普及,可以通過移動設(shè)備隨時隨地發(fā)布,所以能夠在短時間產(chǎn)生大量的數(shù)據(jù),人類所面對的網(wǎng)絡(luò)信息迅速增多。如果用人工手段來處理這樣龐大且無規(guī)則的微博信息,不僅工作量是巨大的,而且難以及時、準(zhǔn)確的找到自己所關(guān)注的信息。無數(shù)實驗結(jié)果表明,用傳統(tǒng)算法提取的專業(yè)個人微博事件效果都不理想。因此如何從大量雜亂無章的個人微博信息中快速找到自己關(guān)注的信息,是目前個人微博信息檢測技術(shù)未來的科研趨勢。 為了自動識別出博主的專業(yè)興趣活動,提出了一種基于LDA的專業(yè)個人微博事件提取算法。不斷篩選從開放平臺中獲取的微博數(shù)據(jù),不斷過濾信息價值不大的文本,符號以及無關(guān)鏈接,使用分詞工具ICTCLAS來對專業(yè)個人微博進行分詞,將特征詞的詞性標(biāo)出并剔除停用詞;其次,根據(jù)特征選擇評估函數(shù)CHI對不同特征詞對不同類別的重要程度進行衡量,再根據(jù)特征詞在同一類文本中均勻分布的原則,利用改進了的TF-IDF進行微博特征詞提取并采用LDA為語料庫建模,以此來挖掘出不同主題和詞之間的關(guān)系,使得權(quán)重較大的詞更能反映出微博主題。從而得到微博在各主題下的概率分布,并結(jié)合時間相似度計算出專業(yè)個人微博的綜合相似度,最后利用改進了的K-Means聚類,將討論同一話題的微博聚集到同一個集合中,從而與人工數(shù)據(jù)進行比對。 實驗結(jié)果驗證了該算法的有效性,同時表明了該算法可以有結(jié)構(gòu)、有條理的呈現(xiàn)出人們感興趣的微博事件。
【關(guān)鍵詞】:專業(yè)個人微博 LDA 相似度 事件提取
【學(xué)位授予單位】:內(nèi)蒙古科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
  • 摘要3-5
  • Abstract5-10
  • 1 緒論10-17
  • 1.1 研究背景10-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-15
  • 1.3 論文主要研究內(nèi)容15
  • 1.4 本文的組織結(jié)構(gòu)15-17
  • 2 微博信息提取的相關(guān)技術(shù)17-27
  • 2.1 微博數(shù)據(jù)獲取17-18
  • 2.2 微博預(yù)處理18-22
  • 2.2.1 選取微博18-19
  • 2.2.2 中文分詞及詞性標(biāo)記19-20
  • 2.2.3 過濾停用詞和表情詞20-22
  • 2.3 微博建模22
  • 2.4 特征選擇22-25
  • 2.4.1 文檔頻度22-23
  • 2.4.2 信息增益23
  • 2.4.3 互信息23-24
  • 2.4.4 CHI 統(tǒng)計24-25
  • 2.5 特征值權(quán)重計算25-26
  • 2.5.1 布爾權(quán)重25
  • 2.5.2 TFIDF 權(quán)重25-26
  • 2.6 本章小結(jié)26-27
  • 3 相似度計算方法27-31
  • 3.1 基于 VSM 的相似度計算28
  • 3.2 基于語義理解的相似度計算28-29
  • 3.3 基于潛在語義分析的相似度計算29-30
  • 3.4 本章小結(jié)30-31
  • 4 基于 LDA 的專業(yè)個人微博相似度計算31-40
  • 4.1 微博預(yù)處理31-32
  • 4.2 改進的 TF-IDF 特征詞提取32-34
  • 4.3 主題分類34-37
  • 4.3.1 LDA 基本思想34-35
  • 4.3.2 Gibbs 抽樣35-36
  • 4.3.3 標(biāo)簽36-37
  • 4.4 個人微博相似度計算37-38
  • 4.4.1 主題相似度37
  • 4.4.2 時間相似度37-38
  • 4.4.3 綜合相似度38
  • 4.5 微博事件提取38-39
  • 4.6 本章小結(jié)39-40
  • 5 實驗結(jié)果與分析40-44
  • 5.1 實驗環(huán)境及平臺搭建40
  • 5.2 微博數(shù)據(jù)收集40
  • 5.3 實驗數(shù)據(jù)評價標(biāo)準(zhǔn)40-41
  • 5.4 微博歸類實驗結(jié)果及分析41-42
  • 5.5 本章小結(jié)42-44
  • 6 總結(jié)與展望44-46
  • 6.1 本文完成的工作44-45
  • 6.2 不足之處和工作展望45-46
  • 參考文獻46-51
  • 在學(xué)研究成果51-52
  • 致謝52

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳麗華;羅云鋒;符海艷;;不確定知識的相似度量方法及應(yīng)用[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年04期

2 趙宜賓;曾文藝;;基于蘊涵算子的Vague集的相似度[J];系統(tǒng)工程理論與實踐;2008年12期

3 王洪凱,管延勇,史開泉;粗集間的相似度量及其應(yīng)用[J];計算機工程與應(yīng)用;2004年31期

4 李燕;;基于WSMO算子的語言型多屬性決策模型研究[J];商場現(xiàn)代化;2009年05期

5 田野;陳東鋒;雷英杰;;基于直覺模糊相似度量的近似推理方法[J];空軍工程大學(xué)學(xué)報(自然科學(xué)版);2007年06期

6 楊潔;王鴻緒;;Vague模式排序法進行目標(biāo)價值排序[J];計算機工程與應(yīng)用;2012年02期

7 魏坤;趙永強;潘泉;張洪才;;一種改進相似度量的紅外目標(biāo)跟蹤算法[J];光子學(xué)報;2008年05期

8 王海豐;王鴻緒;張鯤;;Vague集方案優(yōu)選算法在傳動方案優(yōu)選中的應(yīng)用[J];計算機科學(xué);2013年S1期

9 李凡,蔡立晶,呂澤華;Vague集的三維表示[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2002年10期

10 蘭蓉;;基于直覺模糊集相似度量的多屬性決策方法[J];西安郵電學(xué)院學(xué)報;2010年03期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 陳寧;陳安;周龍驤;;混合類型數(shù)據(jù)相似度及網(wǎng)格聚類算法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 呂澤華;模糊集理論的新拓展及其應(yīng)用研究[D];華中科技大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 張敏;邊界不確定性集合的相似度量的研究[D];西安電子科技大學(xué);2006年

2 賀笑;基于形狀特性的人臉相似度的描述與分析[D];南京理工大學(xué);2014年

3 高鵬;推薦系統(tǒng)中信息相似度的研究及其應(yīng)用[D];上海交通大學(xué);2013年

4 孫瑞;模糊數(shù)的相似度及其在風(fēng)險分析中的應(yīng)用[D];西華大學(xué);2013年

5 章四兵;基于相似度量的機械產(chǎn)品系統(tǒng)的分類方法研究[D];合肥工業(yè)大學(xué);2004年

6 唐志剛;Vague集理論及其應(yīng)用研究[D];廣西大學(xué);2007年

7 李哲;相似度量及其在系統(tǒng)發(fā)育分析中的應(yīng)用研究[D];湘潭大學(xué);2013年

8 朱振國;Vague集相似度量研究[D];重慶郵電大學(xué);2007年

9 王萬軍;Vague集不確定信息處理的SPA方法及應(yīng)用研究[D];蘭州大學(xué);2012年

10 孫麗;基于區(qū)間Vague集的相似度量與得分函數(shù)的決策方法及其應(yīng)用[D];安徽大學(xué);2013年


  本文關(guān)鍵詞:基于專業(yè)個人微博的事件提取研究,由筆耕文化傳播整理發(fā)布。



本文編號:376940

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/376940.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0d0e0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
冬爱琴音一区二区中文字幕| 九九热国产这里只有精品| 在线免费不卡亚洲国产| 日本高清一区免费不卡| 日韩国产中文在线视频| 成人午夜激情在线免费观看| 香港国产三级久久精品三级| 国产一区二区熟女精品免费| 91精品蜜臀一区二区三区| 久久精品福利在线观看| 加勒比日本欧美在线观看| 国产精品视频一级香蕉| 国产又粗又爽又猛又黄的| 91精品蜜臀一区二区三区| 日韩亚洲精品国产第二页| 老熟妇乱视频一区二区| 精品少妇一区二区三区四区| 欧美国产日本免费不卡| 欧美精品久久99九九| 99久只有精品免费视频播放| 深夜福利亚洲高清性感| 中文字幕日韩欧美亚洲午夜| 亚洲欧美日韩国产成人| 欧美日韩亚洲国产综合网| 免费观看成人免费视频| 免费观看成人免费视频| 色老汉在线视频免费亚欧| 91亚洲国产日韩在线| 性感少妇无套内射在线视频| 午夜成年人黄片免费观看| 免费大片黄在线观看国语| 欧美一区二区三区高潮菊竹| 亚洲国产成人爱av在线播放下载| 国自产拍偷拍福利精品图片| 在线视频免费看你懂的| 色狠狠一区二区三区香蕉蜜桃| 亚洲女同一区二区另类| 99久久免费看国产精品| 操白丝女孩在线观看免费高清| 中国一区二区三区人妻| 欧美丰满大屁股一区二区三区|