基于多文本特征融合的中文微博的立場(chǎng)檢測(cè)
【圖文】:
2017,53(21)取了字向量特征;谏鲜鎏卣鳎褂秒S機(jī)森林、SVM和GBDT進(jìn)行立場(chǎng)分類并使用特征分類器的后期融合來預(yù)測(cè)最終立常3系統(tǒng)說明如圖1所示,本文提出的基于監(jiān)督學(xué)習(xí)的立場(chǎng)檢測(cè)方法,共分為4個(gè)階段:數(shù)據(jù)預(yù)處理、特征抽娶立場(chǎng)分類和后期融合。3.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理包括清洗語料、漢字簡繁體轉(zhuǎn)化、分詞和去除停用詞。在原始的微博中有很多新聞標(biāo)題,表情符號(hào)和URL鏈接,這些信息會(huì)增加微博正文的噪音,因此,在語料清洗階段,使用正則表達(dá)式去除這些信息。例如:原始微博:【禁摩限電:國家權(quán)力“內(nèi)卷化”之弊-FT中文網(wǎng)】從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……(分享自@FT中文網(wǎng))http://t.cn/Rq4oQ6N清洗后微博:從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……如果一條微博在清洗過后不包含任何內(nèi)容,那么認(rèn)為這條微博是沒有立場(chǎng)的。語料清洗過程中去除的文本和對(duì)應(yīng)的示例如表1所示。語料清洗結(jié)束后,使用開源工具zhtools(https://github.com/skydark/nstools/blob/master/zhtools/)進(jìn)行漢字簡繁體轉(zhuǎn)換,再使用結(jié)巴(jieba)(https://github.com/fxsjy/jieba)對(duì)微博進(jìn)行分詞。3.2特征抽取基于有監(jiān)督的機(jī)器學(xué)習(xí)的方法,通過選取大量有意義的特征來完成分類任務(wù)。在文本分類中,,通常選取的特征是基于詞頻的特征,例如n-gram等。本文抽取了兩類特征:基于詞頻統(tǒng)計(jì)的特征和文本深度特征;谠~頻統(tǒng)計(jì)的特征包括:基于Unigram的詞袋特征、基于同義詞典的詞袋特征、基于主題詞和立場(chǎng)類別標(biāo)簽共現(xiàn)關(guān)系的特征。文本深度特征是來自word
【作者單位】: 中國人民大學(xué)信息學(xué)院;
【基金】:國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No.2016YFB1001202)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭飛飛;王小華;諶志群;王榮波;;基于回應(yīng)消息的中文微博情感分類方法[J];杭州電子科技大學(xué)學(xué)報(bào);2013年06期
2 李赫元;俞曉明;劉悅;程學(xué)旗;程工;;中文微博客的垃圾用戶檢測(cè)[J];中文信息學(xué)報(bào);2014年03期
3 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學(xué)報(bào);2012年06期
4 陳文亮;朱靖波;朱慕華;姚天順;;基于領(lǐng)域詞典的文本特征表示[J];計(jì)算機(jī)研究與發(fā)展;2005年12期
5 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術(shù)師范學(xué)院學(xué)報(bào);2014年03期
6 唐曉文;基于本體論的文本特征提取[J];電腦與信息技術(shù);2005年01期
7 陳炯;張永奎;;一種基于詞聚類的文本特征描述方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年02期
8 陳振亞;陳光輝;徐建民;;一種基于本體的文本特征選取方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
9 平源;周亞建;張海濱;王樅;楊義先;;強(qiáng)化類別貢獻(xiàn)的文本特征權(quán)重方案[J];北京工業(yè)大學(xué)學(xué)報(bào);2012年09期
10 楊棉絨;;基于文本特征的信息隱藏策略[J];新鄉(xiāng)學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期
相關(guān)會(huì)議論文 前6條
1 朱浩然;梁循;馬躍峰;紀(jì)陽;李啟東;馬超;;金融領(lǐng)域中文微博情感分析[A];第八屆(2013)中國管理學(xué)年會(huì)——金融分會(huì)場(chǎng)論文集[C];2013年
2 王錦;王會(huì)珍;張俐;;基于維基百科類別的文本特征表示[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
3 孔維澤;劉奕群;張敏;馬少平;;問答社區(qū)中回答質(zhì)量的評(píng)價(jià)方法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 朱祥玉;侯德文;陳希;;基于雙重評(píng)估函數(shù)的文本特征提取方法[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(二)[C];2005年
5 代勁;何中市;胡峰;;一種高性能的文本特征自動(dòng)提取算法[A];2009年中國智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年
6 顏燕;;新浪微博上的天文科普[A];科普惠民 責(zé)任與擔(dān)當(dāng)——中國科普理論與實(shí)踐探索——第二十屆全國科普理論研討會(huì)論文集[C];2013年
相關(guān)博士學(xué)位論文 前1條
1 錢濤;中文微博文本規(guī)范化方法及關(guān)鍵技術(shù)研究[D];武漢大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 張彬;中文微博情感傾向性分析研究[D];華南理工大學(xué);2015年
2 田樂;中文微博中的問題檢測(cè)技術(shù)研究[D];復(fù)旦大學(xué);2014年
3 張俊;中文微博情感分析[D];西北民族大學(xué);2015年
4 金鎮(zhèn)晟;基于改進(jìn)的TF-IDF算法的中文微博話題檢測(cè)與研究[D];北京理工大學(xué);2015年
5 夏夢(mèng)南;中文微博情感傾向性分析與情感要素抽取方法[D];北京工業(yè)大學(xué);2015年
6 鄒夢(mèng)宇;基于多方法融合的中文微博情感傾向性分析研究[D];北方工業(yè)大學(xué);2016年
7 邢紀(jì)哲;基于中文微博的情感分類技術(shù)研究[D];東北大學(xué);2014年
8 李翠;小學(xué)語文微課設(shè)計(jì)開發(fā)研究[D];貴州師范大學(xué);2015年
9 梁禮欣;基于條件隨機(jī)場(chǎng)的中文微博情感分析研究[D];廣東工業(yè)大學(xué);2016年
10 黃曉琴;基于核心素養(yǎng)的小學(xué)語文微課程開發(fā)研究[D];西南大學(xué);2016年
本文編號(hào):2524031
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2524031.html