天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

博客作者性別分類的研究

發(fā)布時間:2018-07-24 15:12
【摘要】:博客,是一種通常由個人管理、不定期張貼新的文章的網(wǎng)站。隨著博客的快速發(fā)展,博客作為一個重要的信息源的價值也在增加。在自然語言處理方面和其他方面存在著大量的對博客的研究工作。有許多的商業(yè)公司利用博客中的信息來提供增值服務(wù),比如博客搜索、博客主題追蹤以及人們對產(chǎn)品和服務(wù)意見的情感分析。博客作者的性別分類是一個有許多商業(yè)應(yīng)用價值的研究領(lǐng)域。例如,能夠幫助用戶找到什么主題和產(chǎn)品被男性和女性談?wù)摰淖疃?以及什么產(chǎn)品和服務(wù)被男性和女性喜歡或是不喜歡,利用這些信息能夠用于制作有針對性的廣告與開發(fā)針對性的產(chǎn)品。所以,對博客作者性別分類的研究具有重要的意義。 論文主要實現(xiàn)了博客作者的性別分類,并重點研究了如何提高博客作者性別分類的準(zhǔn)確度,對于給定一篇博文,提取用于博客作者性別分類的特征類,利用帶有課題研究得到的歸并高分類能力特征的候選特征集的樸素貝葉斯分類器,能夠?qū)Σ┪牡淖髡哌M(jìn)行判別歸類,并且分類準(zhǔn)確度在實驗中可以達(dá)到74.49%,具體實現(xiàn)主要包括四部分:第一步是提取用于博客作者性別分類的特征類,課題采用的特征類為基本特征類與詞性序列特征類;第二步是實現(xiàn)用于博客作者性別分類的特征選擇方法,并利用特征選擇方法選擇出候選特征集,課題采用的特征選擇方法是基于單個特征選擇標(biāo)準(zhǔn)的特征選擇方法與集成特征選擇方法;第三步是結(jié)合帶有候選特征集的樸素貝葉斯分類器與十折交叉驗證法,從多組候選特征集中選擇最優(yōu)博客作者性別分類特征集;第四步是為了提高博客作者性別分類的準(zhǔn)備度,設(shè)計并實現(xiàn)了歸并高分類能力的候選特征集。 論文采用帶有候選特征集的樸素貝葉斯分類器與十折交叉驗證法對博文作者性別進(jìn)行分類并驗證分類結(jié)果,最終得到的實驗結(jié)果如下:采用加入詞性序列特征的特征集,相比采用沒有加入詞性序列特征的特征集,分類準(zhǔn)確度較高,為62.99%60.59%,分類準(zhǔn)確度提高了2.4%;采用集成特征選擇方法提取的候選特征集,相比采用單個特征選擇標(biāo)準(zhǔn)提取的候選特征集,分類準(zhǔn)確度較高,分別為72.89%67.57%,72.89%68.19%,72.89%70.49%,72.89%67.26%與72.89%66.97%,另外,采用集成特征選擇方法,相比不采用任何特征選擇方法直接進(jìn)行性別分類,分類準(zhǔn)確度較高,為72.89%60.59%,分類準(zhǔn)確度提高了12.3%;采用改進(jìn)的歸并高分類能力特征的候選特征集,相比采用沒有改進(jìn)的候選特征集,分類準(zhǔn)確度較高,為74.49%72.89%,分類準(zhǔn)確度提高了1.6%。所以采用歸并高分類能力特征的候選特征集,得到的分類準(zhǔn)確度最高,為74.49%。
[Abstract]:A blog is a website that is usually managed by individuals and posts new articles on a regular basis. With the rapid development of blog, the value of blog as an important information source is also increasing. There is a lot of research on blog in natural language processing and other aspects. Many businesses use information from blogs to provide value-added services, such as blog search, blog theme tracking, and emotional analysis of people's opinions on products and services. The gender classification of bloggers is a research area that has many commercial applications. For example, it can help users find out which themes and products are talked about most by men and women, and what products and services are liked or disliked by men and women. The use of this information can be used to produce targeted advertising and development of targeted products. Therefore, it is of great significance to study the gender classification of bloggers. This paper mainly realizes the gender classification of bloggers, and focuses on how to improve the accuracy of the gender classification of bloggers. For a given blog post, the feature classes used for the gender classification of bloggers are extracted. By using the naive Bayes classifier with candidate feature sets with the feature of merging high classification ability, we can classify the authors of blog posts. And the accuracy of classification can reach 74.49 in the experiment, the specific implementation mainly includes four parts: the first step is to extract the feature classes used for the gender classification of bloggers, the feature classes used in the subject are the basic feature class and the feature class of part of speech sequence; The second step is to implement the feature selection method for the gender classification of bloggers, and use the feature selection method to select candidate feature sets. The feature selection method is based on a single feature selection criterion and the ensemble feature selection method. The third step is to combine naive Bayes classifier with candidate feature set and ten fold cross validation method. The best feature set is selected from multiple candidate feature sets. The fourth step is to improve the gender classification readiness of bloggers and to design and implement candidate feature sets with the ability of merging high classification. This paper uses naive Bayesian classifier with candidate feature set and ten fold cross validation method to classify the gender of the blogger and verify the classification results. The experimental results are as follows: the feature set with part of speech sequence feature is used. Compared with the feature set without the feature of part of speech sequence, the classification accuracy is higher (62.99`. 59), and the classification accuracy is improved by 2.4.The candidate feature set extracted by the integrated feature selection method, Compared with candidate feature sets extracted by single feature selection criteria, the classification accuracy is 72.89 g. 57, 72.89 p. 49, 72.89 g. 26% and 72.89 f. 97%, respectively. In addition, the integrated feature selection method is used to classify sex directly, compared with no feature selection method. The classification accuracy is high, 72.89'. 59, the classification accuracy is improved by 12.30.The candidate feature set with improved merging ability is higher than the candidate feature set, which is 74.49r.89g, and the classification accuracy is improved 1.6%. Therefore, the candidate feature set with merging high classification ability features has the highest classification accuracy (74.49).
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 潘飛;;應(yīng)對博客危機(jī):以彼之道,還施彼身[J];國際公關(guān);2006年04期

2 項立剛;;收費會不會成為博客網(wǎng)站的生存模式?[J];通信世界;2006年29期

3 ;菲爾·溫德利的Blog[J];中國計算機(jī)用戶;2006年27期

4 石菲;;博客撬動了什么?[J];中國計算機(jī)用戶;2006年Z2期

5 王志軍;;體驗迅雷資源博客[J];電腦迷;2006年18期

6 方興東;;方興東 說博客[J];大視野;2006年09期

7 白云;;中國博客:專業(yè)化研究進(jìn)程的展開——2006年博客研究綜述[J];新聞知識;2007年02期

8 肖昌斌;曾憲波;;教師博客能否從“幕后”走向“前臺”[J];湖北教育(時政新聞);2007年04期

9 米曉彬;;不可忽視的博客公關(guān)[J];傳媒;2007年08期

10 周婷;;博客實名要動誰的“心頭肉”[J];計算機(jī)與網(wǎng)絡(luò);2007年17期

相關(guān)會議論文 前10條

1 黃春燕;;博客寫作讓網(wǎng)絡(luò)作文如虎添翼[A];國家教師科研基金十一五階段性成果集(廣西卷)[C];2010年

2 姜洪偉;;博客寫作的類型與文體特征探析[A];生命、知識與文明:上海市社會科學(xué)界第七屆學(xué)術(shù)年會文集(2009年度)哲學(xué)·歷史·文學(xué)學(xué)科卷[C];2009年

3 彭蘭;;微博客對網(wǎng)絡(luò)新聞傳播格局與模式的沖擊[A];新聞學(xué)論集(第24輯)[C];2010年

4 王斌;嚴(yán)敏嬋;陳暉;朱忠;;醫(yī)學(xué)臨床教育中的博客化教學(xué)與管理[A];2007年浙江省醫(yī)學(xué)教育學(xué)術(shù)年會論文匯編[C];2007年

5 程莉;;博客MSN Spaces使用動機(jī)初探[A];北京市社會心理學(xué)會2006年學(xué)術(shù)年會論文摘要集[C];2006年

6 陳丹娥;;《博客人生》選題策劃[A];圖書選題策劃報告——第五屆“未來編輯杯”獲獎文集[C];2006年

7 李珍;胡曉檬;;大學(xué)生個人博客使用情況及其人格特征分析[A];北京市社會心理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年

8 潘少聰;;校園博客,師生共同發(fā)展的有效平臺[A];國家教師科研基金十一五階段性成果集(廣東卷)[C];2010年

9 王麗娟;;理性匱乏與博客文化建設(shè)——論公共領(lǐng)域視野下博客社區(qū)的現(xiàn)實建構(gòu)[A];中國與世界影視文化多樣性的現(xiàn)實與前景——中國高等院校影視學(xué)會第十一屆年會暨第4屆中國影視高層論壇論文集[C];2006年

10 陳紅梅;;博客使用動機(jī)和使用狀態(tài)研究[A];中國的前沿 文化復(fù)興與秩序重構(gòu)——上海市社會科學(xué)界第四屆學(xué)術(shù)年會青年文集(2006年度)[C];2006年

相關(guān)重要報紙文章 前10條

1 郭桂英;該給博客立“規(guī)矩”嗎[N];中國改革報;2007年

2 本報記者  李國訓(xùn);博客盈利:與死亡賽跑[N];財經(jīng)時報;2006年

3 本報記者 朱俠;“博客”與誰共舞[N];中國新聞出版報;2006年

4 本報記者 黃啟艷;“古董街”商家欲集體自救[N];中山日報;2008年

5 鄭博超;博客里的檢察風(fēng)景[N];檢察日報;2008年

6 記者 丁雷;大連軟交會 進(jìn)入“微博”時代[N];大連日報;2010年

7 阮帆;前衛(wèi)博客 倡導(dǎo)放棄自戀[N];北京科技報;2005年

8 賈鵬雷;誰毀了博客?[N];計算機(jī)世界;2005年

9 本報記者 楊凱;博客 中國人網(wǎng)絡(luò)生活的“新寵”[N];人民日報海外版;2005年

10 張宏平;2005:“大眾寫作”的博客元年?[N];四川日報;2005年

相關(guān)博士學(xué)位論文 前10條

1 陳卓群;基于學(xué)術(shù)博客的個體之間知識轉(zhuǎn)移研究[D];華中師范大學(xué);2012年

2 鄔心云;日志式個人博客的自我呈現(xiàn)心理研究[D];華中科技大學(xué);2012年

3 鄧建國;Web2.0時代的互聯(lián)網(wǎng)使用行為與網(wǎng)民社會資本之關(guān)系考察[D];復(fù)旦大學(xué);2007年

4 葉敏;中國特色網(wǎng)絡(luò)民主形態(tài)研究[D];華東理工大學(xué);2011年

5 茹少峰;破碎物體復(fù)原技術(shù)與計算機(jī)輔助文物復(fù)原研究[D];西北大學(xué);2004年

6 余秀才;網(wǎng)絡(luò)輿論傳播的行為與動因[D];華中科技大學(xué);2010年

7 王澎;人類在線行為的實證和建模[D];中國科學(xué)技術(shù)大學(xué);2011年

8 王慧軍;網(wǎng)絡(luò)輿論傳播規(guī)律及其導(dǎo)向研究[D];南昌大學(xué);2012年

9 謝福鼎;Wu-Ritt消元法在偏微分代數(shù)方程中的應(yīng)用[D];大連理工大學(xué);2002年

10 湯莉萍;視聽媒體新變革[D];四川大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 謝英香;博客網(wǎng)絡(luò)位置影響力測評研究[D];揚州大學(xué);2010年

2 劉珍;論政治博客對協(xié)商民主的建構(gòu)[D];華中科技大學(xué);2009年

3 于燕云;網(wǎng)絡(luò)媒體微博客與公民社會互動關(guān)系研究[D];西北大學(xué);2011年

4 朱丹輝;大學(xué)生博客現(xiàn)象及其導(dǎo)引研究[D];河南科技大學(xué);2011年

5 宋敏霞;基于學(xué)術(shù)博客的圖書館學(xué)術(shù)信息服務(wù)研究[D];華中師范大學(xué);2011年

6 傅翹楚;科學(xué)傳播理論視野下的科學(xué)博客研究[D];中原工學(xué)院;2011年

7 鄧冰娜;面向博客的垃圾評論識別方法研究[D];河北大學(xué);2011年

8 蘇利超;我國博客廣告研究[D];河南大學(xué);2010年

9 池銳宏;中國體育博文的基本傾向、成因分析及對策建議[D];浙江師范大學(xué);2010年

10 劉麗芳;微博客的傳播特征與傳播效果研究[D];浙江大學(xué);2010年

,

本文編號:2141779

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2141779.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8f71d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com