天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不文明微博帖的自動識別方法研究

發(fā)布時間:2017-09-04 05:41

  本文關(guān)鍵詞:不文明微博帖的自動識別方法研究


  更多相關(guān)文章: 微博 文本分類 樸素貝葉斯 二元語言模型


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,各類社交網(wǎng)絡(luò)產(chǎn)品正不斷改變著人們的生活方式。微博作為這些產(chǎn)品中的佼佼者,進一步促進了個人與世界的交互。然而微博產(chǎn)品的無門檻準(zhǔn)入機制也招致了大量水軍散播的不良信息和用戶無責(zé)任的惡意言論,它們不僅對各年齡段微博使用者的身心造成了影響,更危害著整個網(wǎng)絡(luò)環(huán)境甚至是社會秩序。為了凈化網(wǎng)絡(luò)環(huán)境、促進和諧的網(wǎng)絡(luò)語言生活方式的建設(shè),需要落實對微博信息的監(jiān)管工作,而對于不文明微博的自動識別則是監(jiān)管工作中的重要環(huán)節(jié)。若要實現(xiàn)不文明微博的自動識別,應(yīng)對微博帖進行不文明傾向的分類。本文的工作主要包括以下兩大部分:第一,本文提出了不文明微博語料庫的構(gòu)建方法。由于沒有合適的微博語料庫來開展研究,特別是缺少一定規(guī)模的不文明的微博帖,本文通過調(diào)用騰訊微博API下載公共時間線的微博,提取其中的用戶種子,并以用戶種子為基礎(chǔ)獲取大規(guī)模的用戶信息及用戶微博文件。針對微博數(shù)據(jù)中一些對研究毫無意義的微博帖,定義了篩選規(guī)則對其進行剔除。另外為了抽取潛在的不文明微博帖,建立了不文明種子詞表來匹配一部分可能具有不文明傾向的語料,便于后續(xù)研究工作。最后,對微博數(shù)據(jù)文件進行解析即可索引式地構(gòu)建不文明微博語料庫。第二,本文提出了不文明微博帖的自動識別方法,它的核心問題是微博短文本的分類。我們選擇使用樸素貝葉斯分類器作為分類模型,結(jié)合基于字的二元語言模型思想對文本進行切分以提取關(guān)鍵的不文明特征。在完成語料人工標(biāo)注后,進行樸素貝葉斯分類器的訓(xùn)練及分類應(yīng)用。由于在真實網(wǎng)絡(luò)環(huán)境中不文明微博所占比例未知,引入了正反樣例比來動態(tài)調(diào)整訓(xùn)練集與測試集中不文明微博與非不文明微博的比例,直到分類準(zhǔn)確率達到局部最優(yōu)。對于本模型不能識別的不文明縮寫等內(nèi)容,在前一步的基礎(chǔ)上又建立了不文明縮寫詞表,實現(xiàn)了基于縮寫詞的不文明微博識別方法,識別效果得到了進一步改善。最后,本文列舉說明了不文明微博帖自動識別系統(tǒng)在微博輿情監(jiān)測中的應(yīng)用。
【關(guān)鍵詞】:微博 文本分類 樸素貝葉斯 二元語言模型
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 緒論10-17
  • 1.1 研究背景與意義10-12
  • 1.2 選題來源12-13
  • 1.3 國內(nèi)外研究現(xiàn)狀13-14
  • 1.4 本文的主要研究內(nèi)容14-16
  • 1.5 論文組織結(jié)構(gòu)16-17
  • 第二章 相關(guān)研究綜述17-28
  • 2.1 文本分類基本方法17-21
  • 2.1.1 樸素貝葉斯分類17-18
  • 2.1.2 決策樹分類18-19
  • 2.1.3 支持向量機19-21
  • 2.2 統(tǒng)計語言模型21-25
  • 2.2.1 上下文無關(guān)模型21-22
  • 2.2.2 N-gram模型22-23
  • 2.2.3 隱馬爾可夫模型23-24
  • 2.2.4 最大熵模型24-25
  • 2.3 中文分詞方法25-27
  • 2.3.1 基于規(guī)則的方法25-27
  • 2.3.2 基于統(tǒng)計的方法27
  • 2.4 本章小結(jié)27-28
  • 第三章 不文明微博語料庫的構(gòu)建28-41
  • 3.1 微博數(shù)據(jù)提取28-33
  • 3.1.1 用戶種子提取28-31
  • 3.1.2 用戶數(shù)據(jù)下載31-33
  • 3.2 語料篩選33-37
  • 3.2.1 語料分析34-35
  • 3.2.2 不文明種子詞表的構(gòu)建35-36
  • 3.2.3 語料過濾36-37
  • 3.3 語料存儲37-40
  • 3.3.1 數(shù)據(jù)解析37-39
  • 3.3.2 索引式存儲39-40
  • 3.4 本章小結(jié)40-41
  • 第四章 不文明微博帖自動識別系統(tǒng)41-63
  • 4.1 基于樸素貝葉斯的分類模型41-50
  • 4.1.1 樸素貝葉斯分類的可行性分析41-43
  • 4.1.2 基于Bigram的文本切分與特征選取43-47
  • 4.1.3 訓(xùn)練集的動態(tài)構(gòu)建47-49
  • 4.1.4 模型的訓(xùn)練和使用49-50
  • 4.2 不文明用語分類實驗50-58
  • 4.2.1 人工標(biāo)注51-53
  • 4.2.2 分類器訓(xùn)練53-54
  • 4.2.3 實驗與結(jié)果分析54-58
  • 4.3 不文明縮寫識別模型58-60
  • 4.3.1 不文明縮寫識別方法58-59
  • 4.3.2 實驗結(jié)果分析59-60
  • 4.4 不文明微博自動識別系統(tǒng)的應(yīng)用60-62
  • 4.4.1 用戶個體分析60-61
  • 4.4.2 語言趨勢分析61-62
  • 4.5 本章小結(jié)62-63
  • 第五章 總結(jié)與展望63-65
  • 5.1 本文總結(jié)63
  • 5.2 展望63-65
  • 參考文獻65-69
  • 攻讀碩士學(xué)位期間參與的科研項目與發(fā)表的論文69-70
  • 致謝70

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 溫艷玲;;食品追溯系統(tǒng)自動識別方法研究——以豬肉食品為例[J];信息與電腦(理論版);2011年12期

2 劉惠娟;周源華;;地圖中河流的自動識別方法[J];自動化學(xué)報;1993年04期

3 張仰森,徐波,曹元大,宗成慶;基于姓氏驅(qū)動的中國姓名自動識別方法[J];計算機工程與應(yīng)用;2003年04期

4 唐慧君,王建軍,羅秀娟,周泗忠;一種點陣碼的自動識別方法[J];應(yīng)用光學(xué);2004年05期

5 秦海勤;徐可君;江龍平;;分形理論應(yīng)用中無標(biāo)度區(qū)自動識別方法[J];機械工程學(xué)報;2006年12期

6 游宏梁;張巍;沈鈞毅;劉挺;;一種基于加權(quán)投票的術(shù)語自動識別方法[J];中文信息學(xué)報;2011年03期

7 周激流,何其超;人臉正面模式自動識別方法研究[J];四川大學(xué)學(xué)報(自然科學(xué)版);1993年01期

8 陳京德,季明松;非接觸IC卡讀寫領(lǐng)域的一次技術(shù)創(chuàng)新——非接觸IC卡多功能讀寫器[J];金卡工程;2003年05期

9 曾維亮;梁春生;李冉;皮亦鳴;;基于邊緣最大匹配的印鑒自動識別方法[J];信息與電子工程;2006年05期

10 曾維亮;梁春生;李冉;;基于邊緣最大匹配的印鑒自動識別方法[J];實驗科學(xué)與技術(shù);2006年S1期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 鄭家恒;楊曉巖;;英文譯名自動識別方法研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年

2 鐘茂生;;基于詞語形式標(biāo)記的句際語義關(guān)系自動識別方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

3 張巍;游宏梁;張吉才;;一種基于加權(quán)投票的術(shù)語自動識別方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

4 黃行;江荻;;現(xiàn)代藏語判定動詞句主賓語的自動識別方法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 杜小毅;于濂;;基于聯(lián)合特征的車標(biāo)自動識別方法[A];第七屆中國智能交通年會優(yōu)秀論文集——智能交通技術(shù)[C];2012年

6 王寧;游志勝;潘薇;李貴俊;;一種護照編碼自動識別方法[A];信號與信息處理技術(shù)第三屆信號與信息處理全國聯(lián)合學(xué)術(shù)會議論文集[C];2004年

7 尚英;;動詞重疊形式的自動識別方法研究[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

8 劉旭花;孟祥增;劉俊曉;吳鵬飛;;一種基于知識庫的圖像對象自動識別方法[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年

9 王昆翔;韓加;徐勇;;關(guān)于人臉圖象自動識別方法的研究[A];2001年中國智能自動化會議論文集(上冊)[C];2001年

10 楊志華;齊東旭;江力;楊力華;;一種基于EMD分解的睡眠腦電圖梭形波自動識別方法[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳U,

本文編號:789711


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/789711.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a98e2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品激情在线观看| 国产一区麻豆水好多高潮| 国产日韩欧美专区一区| 91福利视频日本免费看看| 国产不卡在线免费观看视频| 国产精品亚洲欧美一区麻豆 | 久久热在线视频免费观看| 精品视频一区二区三区不卡| 久久福利视频这里有精品| 国产日韩精品激情在线观看| 91久久精品在这里色伊人| 中文字幕一区二区免费| 福利一区二区视频在线| 中日韩免费一区二区三区| 国产传媒精品视频一区| 亚洲av又爽又色又色| 日本人妻丰满熟妇久久| 午夜亚洲少妇福利诱惑| 国内午夜精品视频在线观看| 亚洲熟妇av一区二区三区色堂| 精品人妻少妇二区三区| 欧美字幕一区二区三区| 亚洲综合天堂一二三区| 开心激情网 激情五月天| 国产亚洲成av人在线观看| 国产精品免费视频久久| 在线观看国产午夜福利| 高潮少妇高潮久久精品99| 日本av在线不卡一区| 偷拍洗澡一区二区三区| 日本人妻免费一区二区三区| 国产成人午夜在线视频| 国产精品不卡高清在线观看 | 国产精品免费视频久久| 久久精品免费视看国产成人| 欧美一二三区高清不卡| 日韩成人中文字幕在线一区| 日韩日韩日韩日韩在线| 色丁香一区二区黑人巨大| 久久99青青精品免费观看| 99视频精品免费视频播放|