天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究

發(fā)布時(shí)間:2017-03-21 16:14

  本文關(guān)鍵詞:基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,越來(lái)越多的人開(kāi)始享受互聯(lián)網(wǎng)帶來(lái)的便利。微博作為一項(xiàng)基于網(wǎng)絡(luò)的社交應(yīng)用,因?yàn)槠淇旖、社交性的特點(diǎn),成為人們發(fā)表言論、討論社會(huì)話(huà)題等的一項(xiàng)重要工具。正是由于其用戶(hù)群體龐大、傳播速度快、具有群體效應(yīng)等特點(diǎn),廣告媒體、社會(huì)輿情監(jiān)督部門(mén)等急切需要通過(guò)微博分析,挖掘出可用的信息。另外,如何通過(guò)對(duì)微博內(nèi)容及用戶(hù)資料,研究用戶(hù)的行為習(xí)慣、檢測(cè)網(wǎng)絡(luò)欺詐行為等,也是諸如Twitter、Facebook、騰訊、新浪微博等社交媒體研究工作的一個(gè)重要部分。如果能夠通過(guò)微博用戶(hù)的性別、年齡、愛(ài)好等特征進(jìn)行有效的預(yù)測(cè),必然會(huì)在以上提到的方面發(fā)揮巨大的作用。目前國(guó)內(nèi)外雖然已經(jīng)針對(duì)微博的信息挖掘做了相當(dāng)多的工作,但這些工作主要集中在話(huà)題發(fā)現(xiàn)、微博情感分析、意見(jiàn)領(lǐng)袖發(fā)現(xiàn)、社交群體挖掘等方向,而針對(duì)用戶(hù)的屬性信息,如性別、年齡分類(lèi)的研究較少。本文僅選取與用戶(hù)性別相關(guān)的特征,通過(guò)對(duì)微博內(nèi)容以及能夠獲取到的用戶(hù)個(gè)人信息,設(shè)計(jì)了分類(lèi)算法,在用戶(hù)的性別分類(lèi)判斷方面做了一些研究工作。本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:1.以騰訊微博為例,研究了騰訊微博的開(kāi)放平臺(tái)接口和微博特點(diǎn),提出了基于微博內(nèi)容的用戶(hù)名自動(dòng)發(fā)現(xiàn)算法和海量微博文本自動(dòng)下載算法。在對(duì)騰訊微博的內(nèi)容進(jìn)行分析時(shí),發(fā)現(xiàn)其中有很多和其他用戶(hù)的互動(dòng),而這些操作都涉及到其他用戶(hù)的用戶(hù)名,據(jù)此提出了用戶(hù)名自動(dòng)發(fā)現(xiàn)算法;結(jié)合騰訊官方開(kāi)放平臺(tái)提供的微博數(shù)據(jù)下載接口,利用自動(dòng)發(fā)現(xiàn)的用戶(hù)名,設(shè)計(jì)了海量微博數(shù)據(jù)自動(dòng)下載算法、用戶(hù)信息自動(dòng)下載算法,建立了微博語(yǔ)料庫(kù),包括微博文本信息和用戶(hù)的個(gè)人資料。2.根據(jù)對(duì)微博內(nèi)容和用戶(hù)信息的統(tǒng)計(jì)分析,提出了根據(jù)昵稱(chēng)和動(dòng)詞進(jìn)行性別分類(lèi)的算法以及分類(lèi)時(shí)特征詞提取的方法。通過(guò)對(duì)下載的海量微博內(nèi)容和用戶(hù)個(gè)人資料的抽樣統(tǒng)計(jì)分析,發(fā)現(xiàn)用戶(hù)的昵稱(chēng)大都與漢語(yǔ)的人名相似,而漢語(yǔ)人名具有比較強(qiáng)的性別區(qū)分性,因此提出了一種基于昵稱(chēng)的性別分類(lèi)方法,以昵稱(chēng)中的單個(gè)字為特征進(jìn)行了分類(lèi)研究;在對(duì)微博文本進(jìn)行分詞后,對(duì)動(dòng)詞在兩種性別中出現(xiàn)頻次的統(tǒng)計(jì)分析,發(fā)現(xiàn)部分動(dòng)詞具有較大的性別區(qū)分度,根據(jù)這個(gè)特點(diǎn)提出了一種基于動(dòng)詞的性別分類(lèi)算法,設(shè)計(jì)了動(dòng)詞特征項(xiàng)選取的標(biāo)準(zhǔn)。通過(guò)實(shí)驗(yàn)對(duì)比和分析,發(fā)現(xiàn)以上提出的算法,在性別分類(lèi)中具有較好的準(zhǔn)確率。
【關(guān)鍵詞】:微博 性別判斷 機(jī)器學(xué)習(xí) 特征選擇
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 緒論10-15
  • 1.1 研究背景10-11
  • 1.2 研究目的和意義11-12
  • 1.3 國(guó)內(nèi)外研究現(xiàn)狀12-14
  • 1.3.1 微博內(nèi)容挖掘研究現(xiàn)狀12-13
  • 1.3.2 微博用戶(hù)關(guān)系挖掘研究現(xiàn)狀13-14
  • 1.4 本文研究?jī)?nèi)容與結(jié)構(gòu)14-15
  • 第二章 相關(guān)研究技術(shù)15-26
  • 2.1 基本分類(lèi)算法15-17
  • 2.1.1 樸素貝葉斯分類(lèi)器15-16
  • 2.1.2 決策樹(shù)分類(lèi)器16
  • 2.1.3 κ近鄰分類(lèi)器16-17
  • 2.2 數(shù)據(jù)表示模型17-18
  • 2.3 漢語(yǔ)分詞方法18-22
  • 2.3.1 基于規(guī)則的分詞方法19-21
  • 2.3.2 基于統(tǒng)計(jì)模型的分詞方法21-22
  • 2.4 分類(lèi)算法評(píng)價(jià)標(biāo)準(zhǔn)22-25
  • 2.4.1 正確率p、召回率r和F值22-23
  • 2.4.2 微平均和宏平均23-25
  • 2.5 本章小結(jié)25-26
  • 第三章 海量微博數(shù)據(jù)自動(dòng)獲取方法研究26-38
  • 3.1 API參數(shù)說(shuō)明26-30
  • 3.1.1 微博內(nèi)容下載參數(shù)26-28
  • 3.1.2 個(gè)人資料下載參數(shù)28-30
  • 3.2 海量微博數(shù)據(jù)下載30-35
  • 3.2.1 海量微博下載的難點(diǎn)30
  • 3.2.2 用戶(hù)名自動(dòng)發(fā)現(xiàn)算法30-31
  • 3.2.3 海量微博數(shù)據(jù)下載算法31-33
  • 3.2.4 用戶(hù)個(gè)人資料下載算法33-35
  • 3.3 數(shù)據(jù)抽取35-36
  • 3.3.1 數(shù)據(jù)抽取方法35
  • 3.3.2 遇到的問(wèn)題及解決方案35-36
  • 3.4 微博語(yǔ)料庫(kù)介紹36-37
  • 3.5 本章小結(jié)37-38
  • 第四章 基于機(jī)器學(xué)習(xí)的微博用戶(hù)性別預(yù)測(cè)38-56
  • 4.1 數(shù)據(jù)預(yù)處理及特征分析38-41
  • 4.1.1 微博文本內(nèi)容預(yù)處理38-40
  • 4.1.2 用戶(hù)個(gè)人資料預(yù)處理40-41
  • 4.2 實(shí)驗(yàn)數(shù)據(jù)特征分析41-44
  • 4.2.1 昵稱(chēng)數(shù)據(jù)的統(tǒng)計(jì)分析41-42
  • 4.2.2 動(dòng)詞數(shù)據(jù)的統(tǒng)計(jì)分析42-44
  • 4.3 根據(jù)用戶(hù)昵稱(chēng)進(jìn)行性別分類(lèi)44-49
  • 4.3.1 分類(lèi)算法設(shè)計(jì)44-45
  • 4.3.2 實(shí)驗(yàn)與分析45-49
  • 4.4 根據(jù)微博內(nèi)容進(jìn)行性別分類(lèi)49-54
  • 4.4.1 分類(lèi)算法設(shè)計(jì)49-50
  • 4.4.2 特征詞選取方法50
  • 4.4.3 實(shí)驗(yàn)與分析50-54
  • 4.5 本章小結(jié)54-56
  • 第五章 總結(jié)與展望56-58
  • 5.1 本文總結(jié)56
  • 5.2 展望56-58
  • 參考文獻(xiàn)58-62
  • 攻讀碩士學(xué)位期間參加的科研項(xiàng)目與公開(kāi)發(fā)表的學(xué)術(shù)論文62-63
  • 致謝63

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 劉志明;劉魯;;基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年01期

2 韓忠明;張玉沙;張慧;萬(wàn)月亮;黃今慧;;有效的中文微博短文本傾向性分類(lèi)算法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年10期

3 張珊;于留寶;胡長(zhǎng)軍;;基于表情圖片與情感詞的中文微博情感分析[J];計(jì)算機(jī)科學(xué);2012年S3期

4 平亮;宗利永;;基于社會(huì)網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例[J];圖書(shū)情報(bào)知識(shí);2010年06期

5 朱艷輝;栗春亮;徐葉強(qiáng);柳位平;;一種基于多重詞典的中文文本情感特征抽取方法[J];湖南工業(yè)大學(xué)學(xué)報(bào);2011年02期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 左曉娜;微博的傳播機(jī)制及影響力研究[D];陜西師范大學(xué);2011年


  本文關(guān)鍵詞:基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):259946

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/259946.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)6795d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com