基于依存關系的中文微博作者性別識別
[Abstract]:[objective] to explore the application of dependency in gender identification of Chinese Weibo authors in view of the short length of network text and sparse collection of traditional stylistic features. [methods] Tencent Open Weibo was selected as the experimental corpus. The dependency features were extracted and compared with the lexical features, structural features, functional word features, part-of-speech tagging features and Weibo features in the existing literature. [results] support vector machine (SVM) and naive Bays were used. The comparison experiment of nearest neighbor and decision tree algorithm verifies the accuracy of this method in the gender recognition task of Chinese Weibo authors. The recall rate and F-Measure are the highest. The effectiveness of dependency in the gender recognition of Weibo authors needs to be further verified on large-scale corpus. [conclusion] this model can avoid the sparsity of short text feature collection. Compared with other control feature sets, the author's gender can be identified more effectively.
【作者單位】: 大連外國語大學軟件學院;
【基金】:國家社會科學基金一般項目“典籍英譯國外讀者網上評論觀點挖掘研究”(項目編號:15BYY028) 國家教育部回國人員科研啟動基金項目(項目編號:教外司[2015]1098)的研究成果之一
【分類號】:TP391.1;TP393.092
【參考文獻】
相關期刊論文 前4條
1 祁瑞華;楊德禮;郭旭;劉彩虹;;基于多層面文體特征的博客作者身份識別研究[J];情報學報;2015年06期
2 王晶晶;李壽山;黃磊;;中文微博用戶性別分類方法研究[J];中文信息學報;2014年06期
3 黃發(fā)良;熊金波;黃添強;劉西蒙;;基于粗糙集的微博用戶性別識別[J];計算機應用;2014年08期
4 唐琴;林鴻飛;;文本中人物性別識別研究[J];中文信息學報;2010年02期
相關碩士學位論文 前1條
1 白麗娟;基于文本挖掘的性別分類研究[D];哈爾濱工業(yè)大學;2011年
【共引文獻】
相關期刊論文 前10條
1 祁瑞華;;基于依存關系的中文微博作者性別識別[J];數據分析與知識發(fā)現;2017年02期
2 宋巍;謝興波;劉麗珍;王函石;;用戶隱藏屬性推斷研究綜述[J];小型微型計算機系統;2017年02期
3 胡龍茂;;中文在線評論的用戶性別判定研究[J];通化師范學院學報;2016年12期
4 郭旭;祁瑞華;;作者身份識別中不規(guī)范文本特征選擇方法的研究[J];現代圖書情報技術;2016年11期
5 宋巍;劉麗珍;王函石;;基于興趣偏好的微博用戶性別推斷研究[J];電子學報;2016年10期
6 劉寶芹;牛耘;;基于情緒特征的中文微博用戶性別識別[J];計算機工程與科學;2016年09期
7 王澤昕;;基于身高和b貿な蕕男員鴟擲嘌芯縖J];科學中國人;2016年24期
8 錢鐵云;尤珍妮;陳麗;王飛;;基于興趣標簽的緘默用戶性別預測研究[J];華中科技大學學報(自然科學版);2015年12期
9 洪丹;;微博及中文微博信息處理研究綜述[J];佳木斯職業(yè)學院學報;2015年04期
10 黃發(fā)良;熊金波;黃添強;劉西蒙;;基于粗糙集的微博用戶性別識別[J];計算機應用;2014年08期
【二級參考文獻】
相關期刊論文 前10條
1 呂英杰;范靜;劉景方;;基于文體學的中文UGC作者身份識別研究[J];現代圖書情報技術;2013年09期
2 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期
3 張劍峰;夏云慶;姚建民;;微博文本處理研究綜述[J];中文信息學報;2012年04期
4 唐琴;林鴻飛;;文本中人物性別識別研究[J];中文信息學報;2010年02期
5 唐琴;宋銳;林鴻飛;;基于Chunk-CRF的情感問答研究[J];智能系統學報;2008年06期
6 陸春艷;;語言里的性別差異[J];安徽文學(下半月);2008年04期
7 李新光;;淺談小說教學中的人物形象分析[J];科教文匯(上旬刊);2007年02期
8 徐琳宏;林鴻飛;楊志豪;;基于語義理解的文本傾向性識別機制[J];中文信息學報;2007年01期
9 王厚峰,梅錚;魯棒性的漢語人稱代詞消解[J];軟件學報;2005年05期
10 錢進;語言性別差異研究綜述[J];甘肅社會科學;2004年06期
相關碩士學位論文 前3條
1 牛海根;文本挖掘技術在短信文本中的應用研究[D];電子科技大學;2007年
2 樊斌;基于漢語語料庫的性別詞匯研究[D];武漢理工大學;2005年
3 張燕薌;性別差異在語言使用中的體現[D];福建師范大學;2005年
【相似文獻】
相關期刊論文 前10條
1 郭飛飛;王小華;諶志群;王榮波;;基于回應消息的中文微博情感分類方法[J];杭州電子科技大學學報;2013年06期
2 李赫元;俞曉明;劉悅;程學旗;程工;;中文微博客的垃圾用戶檢測[J];中文信息學報;2014年03期
3 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期
4 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術師范學院學報;2014年03期
5 肖s,
本文編號:2473678
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2473678.html