不文明微博帖的自動識別方法研究
本文關(guān)鍵詞:不文明微博帖的自動識別方法研究
更多相關(guān)文章: 微博 文本分類 樸素貝葉斯 二元語言模型
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,各類社交網(wǎng)絡(luò)產(chǎn)品正不斷改變著人們的生活方式。微博作為這些產(chǎn)品中的佼佼者,進一步促進了個人與世界的交互。然而微博產(chǎn)品的無門檻準(zhǔn)入機制也招致了大量水軍散播的不良信息和用戶無責(zé)任的惡意言論,它們不僅對各年齡段微博使用者的身心造成了影響,更危害著整個網(wǎng)絡(luò)環(huán)境甚至是社會秩序。為了凈化網(wǎng)絡(luò)環(huán)境、促進和諧的網(wǎng)絡(luò)語言生活方式的建設(shè),需要落實對微博信息的監(jiān)管工作,而對于不文明微博的自動識別則是監(jiān)管工作中的重要環(huán)節(jié)。若要實現(xiàn)不文明微博的自動識別,應(yīng)對微博帖進行不文明傾向的分類。本文的工作主要包括以下兩大部分:第一,本文提出了不文明微博語料庫的構(gòu)建方法。由于沒有合適的微博語料庫來開展研究,特別是缺少一定規(guī)模的不文明的微博帖,本文通過調(diào)用騰訊微博API下載公共時間線的微博,提取其中的用戶種子,并以用戶種子為基礎(chǔ)獲取大規(guī)模的用戶信息及用戶微博文件。針對微博數(shù)據(jù)中一些對研究毫無意義的微博帖,定義了篩選規(guī)則對其進行剔除。另外為了抽取潛在的不文明微博帖,建立了不文明種子詞表來匹配一部分可能具有不文明傾向的語料,便于后續(xù)研究工作。最后,對微博數(shù)據(jù)文件進行解析即可索引式地構(gòu)建不文明微博語料庫。第二,本文提出了不文明微博帖的自動識別方法,它的核心問題是微博短文本的分類。我們選擇使用樸素貝葉斯分類器作為分類模型,結(jié)合基于字的二元語言模型思想對文本進行切分以提取關(guān)鍵的不文明特征。在完成語料人工標(biāo)注后,進行樸素貝葉斯分類器的訓(xùn)練及分類應(yīng)用。由于在真實網(wǎng)絡(luò)環(huán)境中不文明微博所占比例未知,引入了正反樣例比來動態(tài)調(diào)整訓(xùn)練集與測試集中不文明微博與非不文明微博的比例,直到分類準(zhǔn)確率達到局部最優(yōu)。對于本模型不能識別的不文明縮寫等內(nèi)容,在前一步的基礎(chǔ)上又建立了不文明縮寫詞表,實現(xiàn)了基于縮寫詞的不文明微博識別方法,識別效果得到了進一步改善。最后,本文列舉說明了不文明微博帖自動識別系統(tǒng)在微博輿情監(jiān)測中的應(yīng)用。
【關(guān)鍵詞】:微博 文本分類 樸素貝葉斯 二元語言模型
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-17
- 1.1 研究背景與意義10-12
- 1.2 選題來源12-13
- 1.3 國內(nèi)外研究現(xiàn)狀13-14
- 1.4 本文的主要研究內(nèi)容14-16
- 1.5 論文組織結(jié)構(gòu)16-17
- 第二章 相關(guān)研究綜述17-28
- 2.1 文本分類基本方法17-21
- 2.1.1 樸素貝葉斯分類17-18
- 2.1.2 決策樹分類18-19
- 2.1.3 支持向量機19-21
- 2.2 統(tǒng)計語言模型21-25
- 2.2.1 上下文無關(guān)模型21-22
- 2.2.2 N-gram模型22-23
- 2.2.3 隱馬爾可夫模型23-24
- 2.2.4 最大熵模型24-25
- 2.3 中文分詞方法25-27
- 2.3.1 基于規(guī)則的方法25-27
- 2.3.2 基于統(tǒng)計的方法27
- 2.4 本章小結(jié)27-28
- 第三章 不文明微博語料庫的構(gòu)建28-41
- 3.1 微博數(shù)據(jù)提取28-33
- 3.1.1 用戶種子提取28-31
- 3.1.2 用戶數(shù)據(jù)下載31-33
- 3.2 語料篩選33-37
- 3.2.1 語料分析34-35
- 3.2.2 不文明種子詞表的構(gòu)建35-36
- 3.2.3 語料過濾36-37
- 3.3 語料存儲37-40
- 3.3.1 數(shù)據(jù)解析37-39
- 3.3.2 索引式存儲39-40
- 3.4 本章小結(jié)40-41
- 第四章 不文明微博帖自動識別系統(tǒng)41-63
- 4.1 基于樸素貝葉斯的分類模型41-50
- 4.1.1 樸素貝葉斯分類的可行性分析41-43
- 4.1.2 基于Bigram的文本切分與特征選取43-47
- 4.1.3 訓(xùn)練集的動態(tài)構(gòu)建47-49
- 4.1.4 模型的訓(xùn)練和使用49-50
- 4.2 不文明用語分類實驗50-58
- 4.2.1 人工標(biāo)注51-53
- 4.2.2 分類器訓(xùn)練53-54
- 4.2.3 實驗與結(jié)果分析54-58
- 4.3 不文明縮寫識別模型58-60
- 4.3.1 不文明縮寫識別方法58-59
- 4.3.2 實驗結(jié)果分析59-60
- 4.4 不文明微博自動識別系統(tǒng)的應(yīng)用60-62
- 4.4.1 用戶個體分析60-61
- 4.4.2 語言趨勢分析61-62
- 4.5 本章小結(jié)62-63
- 第五章 總結(jié)與展望63-65
- 5.1 本文總結(jié)63
- 5.2 展望63-65
- 參考文獻65-69
- 攻讀碩士學(xué)位期間參與的科研項目與發(fā)表的論文69-70
- 致謝70
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 溫艷玲;;食品追溯系統(tǒng)自動識別方法研究——以豬肉食品為例[J];信息與電腦(理論版);2011年12期
2 劉惠娟;周源華;;地圖中河流的自動識別方法[J];自動化學(xué)報;1993年04期
3 張仰森,徐波,曹元大,宗成慶;基于姓氏驅(qū)動的中國姓名自動識別方法[J];計算機工程與應(yīng)用;2003年04期
4 唐慧君,王建軍,羅秀娟,周泗忠;一種點陣碼的自動識別方法[J];應(yīng)用光學(xué);2004年05期
5 秦海勤;徐可君;江龍平;;分形理論應(yīng)用中無標(biāo)度區(qū)自動識別方法[J];機械工程學(xué)報;2006年12期
6 游宏梁;張巍;沈鈞毅;劉挺;;一種基于加權(quán)投票的術(shù)語自動識別方法[J];中文信息學(xué)報;2011年03期
7 周激流,何其超;人臉正面模式自動識別方法研究[J];四川大學(xué)學(xué)報(自然科學(xué)版);1993年01期
8 陳京德,季明松;非接觸IC卡讀寫領(lǐng)域的一次技術(shù)創(chuàng)新——非接觸IC卡多功能讀寫器[J];金卡工程;2003年05期
9 曾維亮;梁春生;李冉;皮亦鳴;;基于邊緣最大匹配的印鑒自動識別方法[J];信息與電子工程;2006年05期
10 曾維亮;梁春生;李冉;;基于邊緣最大匹配的印鑒自動識別方法[J];實驗科學(xué)與技術(shù);2006年S1期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鄭家恒;楊曉巖;;英文譯名自動識別方法研究[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
2 鐘茂生;;基于詞語形式標(biāo)記的句際語義關(guān)系自動識別方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
3 張巍;游宏梁;張吉才;;一種基于加權(quán)投票的術(shù)語自動識別方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
4 黃行;江荻;;現(xiàn)代藏語判定動詞句主賓語的自動識別方法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
5 杜小毅;于濂;;基于聯(lián)合特征的車標(biāo)自動識別方法[A];第七屆中國智能交通年會優(yōu)秀論文集——智能交通技術(shù)[C];2012年
6 王寧;游志勝;潘薇;李貴俊;;一種護照編碼自動識別方法[A];信號與信息處理技術(shù)第三屆信號與信息處理全國聯(lián)合學(xué)術(shù)會議論文集[C];2004年
7 尚英;;動詞重疊形式的自動識別方法研究[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
8 劉旭花;孟祥增;劉俊曉;吳鵬飛;;一種基于知識庫的圖像對象自動識別方法[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年
9 王昆翔;韓加;徐勇;;關(guān)于人臉圖象自動識別方法的研究[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
10 楊志華;齊東旭;江力;楊力華;;一種基于EMD分解的睡眠腦電圖梭形波自動識別方法[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳U,
本文編號:789711
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/789711.html