基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究
本文關(guān)鍵詞:基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,越來(lái)越多的人開(kāi)始享受互聯(lián)網(wǎng)帶來(lái)的便利。微博作為一項(xiàng)基于網(wǎng)絡(luò)的社交應(yīng)用,因?yàn)槠淇旖、社交性的特點(diǎn),成為人們發(fā)表言論、討論社會(huì)話(huà)題等的一項(xiàng)重要工具。正是由于其用戶(hù)群體龐大、傳播速度快、具有群體效應(yīng)等特點(diǎn),廣告媒體、社會(huì)輿情監(jiān)督部門(mén)等急切需要通過(guò)微博分析,挖掘出可用的信息。另外,如何通過(guò)對(duì)微博內(nèi)容及用戶(hù)資料,研究用戶(hù)的行為習(xí)慣、檢測(cè)網(wǎng)絡(luò)欺詐行為等,也是諸如Twitter、Facebook、騰訊、新浪微博等社交媒體研究工作的一個(gè)重要部分。如果能夠通過(guò)微博用戶(hù)的性別、年齡、愛(ài)好等特征進(jìn)行有效的預(yù)測(cè),必然會(huì)在以上提到的方面發(fā)揮巨大的作用。目前國(guó)內(nèi)外雖然已經(jīng)針對(duì)微博的信息挖掘做了相當(dāng)多的工作,但這些工作主要集中在話(huà)題發(fā)現(xiàn)、微博情感分析、意見(jiàn)領(lǐng)袖發(fā)現(xiàn)、社交群體挖掘等方向,而針對(duì)用戶(hù)的屬性信息,如性別、年齡分類(lèi)的研究較少。本文僅選取與用戶(hù)性別相關(guān)的特征,通過(guò)對(duì)微博內(nèi)容以及能夠獲取到的用戶(hù)個(gè)人信息,設(shè)計(jì)了分類(lèi)算法,在用戶(hù)的性別分類(lèi)判斷方面做了一些研究工作。本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:1.以騰訊微博為例,研究了騰訊微博的開(kāi)放平臺(tái)接口和微博特點(diǎn),提出了基于微博內(nèi)容的用戶(hù)名自動(dòng)發(fā)現(xiàn)算法和海量微博文本自動(dòng)下載算法。在對(duì)騰訊微博的內(nèi)容進(jìn)行分析時(shí),發(fā)現(xiàn)其中有很多和其他用戶(hù)的互動(dòng),而這些操作都涉及到其他用戶(hù)的用戶(hù)名,據(jù)此提出了用戶(hù)名自動(dòng)發(fā)現(xiàn)算法;結(jié)合騰訊官方開(kāi)放平臺(tái)提供的微博數(shù)據(jù)下載接口,利用自動(dòng)發(fā)現(xiàn)的用戶(hù)名,設(shè)計(jì)了海量微博數(shù)據(jù)自動(dòng)下載算法、用戶(hù)信息自動(dòng)下載算法,建立了微博語(yǔ)料庫(kù),包括微博文本信息和用戶(hù)的個(gè)人資料。2.根據(jù)對(duì)微博內(nèi)容和用戶(hù)信息的統(tǒng)計(jì)分析,提出了根據(jù)昵稱(chēng)和動(dòng)詞進(jìn)行性別分類(lèi)的算法以及分類(lèi)時(shí)特征詞提取的方法。通過(guò)對(duì)下載的海量微博內(nèi)容和用戶(hù)個(gè)人資料的抽樣統(tǒng)計(jì)分析,發(fā)現(xiàn)用戶(hù)的昵稱(chēng)大都與漢語(yǔ)的人名相似,而漢語(yǔ)人名具有比較強(qiáng)的性別區(qū)分性,因此提出了一種基于昵稱(chēng)的性別分類(lèi)方法,以昵稱(chēng)中的單個(gè)字為特征進(jìn)行了分類(lèi)研究;在對(duì)微博文本進(jìn)行分詞后,對(duì)動(dòng)詞在兩種性別中出現(xiàn)頻次的統(tǒng)計(jì)分析,發(fā)現(xiàn)部分動(dòng)詞具有較大的性別區(qū)分度,根據(jù)這個(gè)特點(diǎn)提出了一種基于動(dòng)詞的性別分類(lèi)算法,設(shè)計(jì)了動(dòng)詞特征項(xiàng)選取的標(biāo)準(zhǔn)。通過(guò)實(shí)驗(yàn)對(duì)比和分析,發(fā)現(xiàn)以上提出的算法,在性別分類(lèi)中具有較好的準(zhǔn)確率。
【關(guān)鍵詞】:微博 性別判斷 機(jī)器學(xué)習(xí) 特征選擇
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-15
- 1.1 研究背景10-11
- 1.2 研究目的和意義11-12
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.3.1 微博內(nèi)容挖掘研究現(xiàn)狀12-13
- 1.3.2 微博用戶(hù)關(guān)系挖掘研究現(xiàn)狀13-14
- 1.4 本文研究?jī)?nèi)容與結(jié)構(gòu)14-15
- 第二章 相關(guān)研究技術(shù)15-26
- 2.1 基本分類(lèi)算法15-17
- 2.1.1 樸素貝葉斯分類(lèi)器15-16
- 2.1.2 決策樹(shù)分類(lèi)器16
- 2.1.3 κ近鄰分類(lèi)器16-17
- 2.2 數(shù)據(jù)表示模型17-18
- 2.3 漢語(yǔ)分詞方法18-22
- 2.3.1 基于規(guī)則的分詞方法19-21
- 2.3.2 基于統(tǒng)計(jì)模型的分詞方法21-22
- 2.4 分類(lèi)算法評(píng)價(jià)標(biāo)準(zhǔn)22-25
- 2.4.1 正確率p、召回率r和F值22-23
- 2.4.2 微平均和宏平均23-25
- 2.5 本章小結(jié)25-26
- 第三章 海量微博數(shù)據(jù)自動(dòng)獲取方法研究26-38
- 3.1 API參數(shù)說(shuō)明26-30
- 3.1.1 微博內(nèi)容下載參數(shù)26-28
- 3.1.2 個(gè)人資料下載參數(shù)28-30
- 3.2 海量微博數(shù)據(jù)下載30-35
- 3.2.1 海量微博下載的難點(diǎn)30
- 3.2.2 用戶(hù)名自動(dòng)發(fā)現(xiàn)算法30-31
- 3.2.3 海量微博數(shù)據(jù)下載算法31-33
- 3.2.4 用戶(hù)個(gè)人資料下載算法33-35
- 3.3 數(shù)據(jù)抽取35-36
- 3.3.1 數(shù)據(jù)抽取方法35
- 3.3.2 遇到的問(wèn)題及解決方案35-36
- 3.4 微博語(yǔ)料庫(kù)介紹36-37
- 3.5 本章小結(jié)37-38
- 第四章 基于機(jī)器學(xué)習(xí)的微博用戶(hù)性別預(yù)測(cè)38-56
- 4.1 數(shù)據(jù)預(yù)處理及特征分析38-41
- 4.1.1 微博文本內(nèi)容預(yù)處理38-40
- 4.1.2 用戶(hù)個(gè)人資料預(yù)處理40-41
- 4.2 實(shí)驗(yàn)數(shù)據(jù)特征分析41-44
- 4.2.1 昵稱(chēng)數(shù)據(jù)的統(tǒng)計(jì)分析41-42
- 4.2.2 動(dòng)詞數(shù)據(jù)的統(tǒng)計(jì)分析42-44
- 4.3 根據(jù)用戶(hù)昵稱(chēng)進(jìn)行性別分類(lèi)44-49
- 4.3.1 分類(lèi)算法設(shè)計(jì)44-45
- 4.3.2 實(shí)驗(yàn)與分析45-49
- 4.4 根據(jù)微博內(nèi)容進(jìn)行性別分類(lèi)49-54
- 4.4.1 分類(lèi)算法設(shè)計(jì)49-50
- 4.4.2 特征詞選取方法50
- 4.4.3 實(shí)驗(yàn)與分析50-54
- 4.5 本章小結(jié)54-56
- 第五章 總結(jié)與展望56-58
- 5.1 本文總結(jié)56
- 5.2 展望56-58
- 參考文獻(xiàn)58-62
- 攻讀碩士學(xué)位期間參加的科研項(xiàng)目與公開(kāi)發(fā)表的學(xué)術(shù)論文62-63
- 致謝63
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 劉志明;劉魯;;基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年01期
2 韓忠明;張玉沙;張慧;萬(wàn)月亮;黃今慧;;有效的中文微博短文本傾向性分類(lèi)算法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年10期
3 張珊;于留寶;胡長(zhǎng)軍;;基于表情圖片與情感詞的中文微博情感分析[J];計(jì)算機(jī)科學(xué);2012年S3期
4 平亮;宗利永;;基于社會(huì)網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例[J];圖書(shū)情報(bào)知識(shí);2010年06期
5 朱艷輝;栗春亮;徐葉強(qiáng);柳位平;;一種基于多重詞典的中文文本情感特征抽取方法[J];湖南工業(yè)大學(xué)學(xué)報(bào);2011年02期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 左曉娜;微博的傳播機(jī)制及影響力研究[D];陜西師范大學(xué);2011年
本文關(guān)鍵詞:基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):259946
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/259946.html