博客作者性別分類(lèi)的研究
[Abstract]:A blog is a website that is usually managed by individuals and posts new articles on a regular basis. With the rapid development of blog, the value of blog as an important information source is also increasing. There is a lot of research on blog in natural language processing and other aspects. Many businesses use information from blogs to provide value-added services, such as blog search, blog theme tracking, and emotional analysis of people's opinions on products and services. The gender classification of bloggers is a research area that has many commercial applications. For example, it can help users find out which themes and products are talked about most by men and women, and what products and services are liked or disliked by men and women. The use of this information can be used to produce targeted advertising and development of targeted products. Therefore, it is of great significance to study the gender classification of bloggers. This paper mainly realizes the gender classification of bloggers, and focuses on how to improve the accuracy of the gender classification of bloggers. For a given blog post, the feature classes used for the gender classification of bloggers are extracted. By using the naive Bayes classifier with candidate feature sets with the feature of merging high classification ability, we can classify the authors of blog posts. And the accuracy of classification can reach 74.49 in the experiment, the specific implementation mainly includes four parts: the first step is to extract the feature classes used for the gender classification of bloggers, the feature classes used in the subject are the basic feature class and the feature class of part of speech sequence; The second step is to implement the feature selection method for the gender classification of bloggers, and use the feature selection method to select candidate feature sets. The feature selection method is based on a single feature selection criterion and the ensemble feature selection method. The third step is to combine naive Bayes classifier with candidate feature set and ten fold cross validation method. The best feature set is selected from multiple candidate feature sets. The fourth step is to improve the gender classification readiness of bloggers and to design and implement candidate feature sets with the ability of merging high classification. This paper uses naive Bayesian classifier with candidate feature set and ten fold cross validation method to classify the gender of the blogger and verify the classification results. The experimental results are as follows: the feature set with part of speech sequence feature is used. Compared with the feature set without the feature of part of speech sequence, the classification accuracy is higher (62.99`. 59), and the classification accuracy is improved by 2.4.The candidate feature set extracted by the integrated feature selection method, Compared with candidate feature sets extracted by single feature selection criteria, the classification accuracy is 72.89 g. 57, 72.89 p. 49, 72.89 g. 26% and 72.89 f. 97%, respectively. In addition, the integrated feature selection method is used to classify sex directly, compared with no feature selection method. The classification accuracy is high, 72.89'. 59, the classification accuracy is improved by 12.30.The candidate feature set with improved merging ability is higher than the candidate feature set, which is 74.49r.89g, and the classification accuracy is improved 1.6%. Therefore, the candidate feature set with merging high classification ability features has the highest classification accuracy (74.49).
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 潘飛;;應(yīng)對(duì)博客危機(jī):以彼之道,還施彼身[J];國(guó)際公關(guān);2006年04期
2 項(xiàng)立剛;;收費(fèi)會(huì)不會(huì)成為博客網(wǎng)站的生存模式?[J];通信世界;2006年29期
3 ;菲爾·溫德利的Blog[J];中國(guó)計(jì)算機(jī)用戶;2006年27期
4 石菲;;博客撬動(dòng)了什么?[J];中國(guó)計(jì)算機(jī)用戶;2006年Z2期
5 王志軍;;體驗(yàn)迅雷資源博客[J];電腦迷;2006年18期
6 方興東;;方興東 說(shuō)博客[J];大視野;2006年09期
7 白云;;中國(guó)博客:專業(yè)化研究進(jìn)程的展開(kāi)——2006年博客研究綜述[J];新聞知識(shí);2007年02期
8 肖昌斌;曾憲波;;教師博客能否從“幕后”走向“前臺(tái)”[J];湖北教育(時(shí)政新聞);2007年04期
9 米曉彬;;不可忽視的博客公關(guān)[J];傳媒;2007年08期
10 周婷;;博客實(shí)名要?jiǎng)诱l(shuí)的“心頭肉”[J];計(jì)算機(jī)與網(wǎng)絡(luò);2007年17期
相關(guān)會(huì)議論文 前10條
1 黃春燕;;博客寫(xiě)作讓網(wǎng)絡(luò)作文如虎添翼[A];國(guó)家教師科研基金十一五階段性成果集(廣西卷)[C];2010年
2 姜洪偉;;博客寫(xiě)作的類(lèi)型與文體特征探析[A];生命、知識(shí)與文明:上海市社會(huì)科學(xué)界第七屆學(xué)術(shù)年會(huì)文集(2009年度)哲學(xué)·歷史·文學(xué)學(xué)科卷[C];2009年
3 彭蘭;;微博客對(duì)網(wǎng)絡(luò)新聞傳播格局與模式的沖擊[A];新聞學(xué)論集(第24輯)[C];2010年
4 王斌;嚴(yán)敏嬋;陳暉;朱忠;;醫(yī)學(xué)臨床教育中的博客化教學(xué)與管理[A];2007年浙江省醫(yī)學(xué)教育學(xué)術(shù)年會(huì)論文匯編[C];2007年
5 程莉;;博客MSN Spaces使用動(dòng)機(jī)初探[A];北京市社會(huì)心理學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文摘要集[C];2006年
6 陳丹娥;;《博客人生》選題策劃[A];圖書(shū)選題策劃報(bào)告——第五屆“未來(lái)編輯杯”獲獎(jiǎng)文集[C];2006年
7 李珍;胡曉檬;;大學(xué)生個(gè)人博客使用情況及其人格特征分析[A];北京市社會(huì)心理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年
8 潘少聰;;校園博客,師生共同發(fā)展的有效平臺(tái)[A];國(guó)家教師科研基金十一五階段性成果集(廣東卷)[C];2010年
9 王麗娟;;理性匱乏與博客文化建設(shè)——論公共領(lǐng)域視野下博客社區(qū)的現(xiàn)實(shí)建構(gòu)[A];中國(guó)與世界影視文化多樣性的現(xiàn)實(shí)與前景——中國(guó)高等院校影視學(xué)會(huì)第十一屆年會(huì)暨第4屆中國(guó)影視高層論壇論文集[C];2006年
10 陳紅梅;;博客使用動(dòng)機(jī)和使用狀態(tài)研究[A];中國(guó)的前沿 文化復(fù)興與秩序重構(gòu)——上海市社會(huì)科學(xué)界第四屆學(xué)術(shù)年會(huì)青年文集(2006年度)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 郭桂英;該給博客立“規(guī)矩”嗎[N];中國(guó)改革報(bào);2007年
2 本報(bào)記者 李國(guó)訓(xùn);博客盈利:與死亡賽跑[N];財(cái)經(jīng)時(shí)報(bào);2006年
3 本報(bào)記者 朱俠;“博客”與誰(shuí)共舞[N];中國(guó)新聞出版報(bào);2006年
4 本報(bào)記者 黃啟艷;“古董街”商家欲集體自救[N];中山日?qǐng)?bào);2008年
5 鄭博超;博客里的檢察風(fēng)景[N];檢察日?qǐng)?bào);2008年
6 記者 丁雷;大連軟交會(huì) 進(jìn)入“微博”時(shí)代[N];大連日?qǐng)?bào);2010年
7 阮帆;前衛(wèi)博客 倡導(dǎo)放棄自戀[N];北京科技報(bào);2005年
8 賈鵬雷;誰(shuí)毀了博客?[N];計(jì)算機(jī)世界;2005年
9 本報(bào)記者 楊凱;博客 中國(guó)人網(wǎng)絡(luò)生活的“新寵”[N];人民日?qǐng)?bào)海外版;2005年
10 張宏平;2005:“大眾寫(xiě)作”的博客元年?[N];四川日?qǐng)?bào);2005年
相關(guān)博士學(xué)位論文 前10條
1 陳卓群;基于學(xué)術(shù)博客的個(gè)體之間知識(shí)轉(zhuǎn)移研究[D];華中師范大學(xué);2012年
2 鄔心云;日志式個(gè)人博客的自我呈現(xiàn)心理研究[D];華中科技大學(xué);2012年
3 鄧建國(guó);Web2.0時(shí)代的互聯(lián)網(wǎng)使用行為與網(wǎng)民社會(huì)資本之關(guān)系考察[D];復(fù)旦大學(xué);2007年
4 葉敏;中國(guó)特色網(wǎng)絡(luò)民主形態(tài)研究[D];華東理工大學(xué);2011年
5 茹少峰;破碎物體復(fù)原技術(shù)與計(jì)算機(jī)輔助文物復(fù)原研究[D];西北大學(xué);2004年
6 余秀才;網(wǎng)絡(luò)輿論傳播的行為與動(dòng)因[D];華中科技大學(xué);2010年
7 王澎;人類(lèi)在線行為的實(shí)證和建模[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
8 王慧軍;網(wǎng)絡(luò)輿論傳播規(guī)律及其導(dǎo)向研究[D];南昌大學(xué);2012年
9 謝福鼎;Wu-Ritt消元法在偏微分代數(shù)方程中的應(yīng)用[D];大連理工大學(xué);2002年
10 湯莉萍;視聽(tīng)媒體新變革[D];四川大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 謝英香;博客網(wǎng)絡(luò)位置影響力測(cè)評(píng)研究[D];揚(yáng)州大學(xué);2010年
2 劉珍;論政治博客對(duì)協(xié)商民主的建構(gòu)[D];華中科技大學(xué);2009年
3 于燕云;網(wǎng)絡(luò)媒體微博客與公民社會(huì)互動(dòng)關(guān)系研究[D];西北大學(xué);2011年
4 朱丹輝;大學(xué)生博客現(xiàn)象及其導(dǎo)引研究[D];河南科技大學(xué);2011年
5 宋敏霞;基于學(xué)術(shù)博客的圖書(shū)館學(xué)術(shù)信息服務(wù)研究[D];華中師范大學(xué);2011年
6 傅翹楚;科學(xué)傳播理論視野下的科學(xué)博客研究[D];中原工學(xué)院;2011年
7 鄧冰娜;面向博客的垃圾評(píng)論識(shí)別方法研究[D];河北大學(xué);2011年
8 蘇利超;我國(guó)博客廣告研究[D];河南大學(xué);2010年
9 池銳宏;中國(guó)體育博文的基本傾向、成因分析及對(duì)策建議[D];浙江師范大學(xué);2010年
10 劉麗芳;微博客的傳播特征與傳播效果研究[D];浙江大學(xué);2010年
,本文編號(hào):2141779
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2141779.html