天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于多文本特征融合的中文微博的立場(chǎng)檢測(cè)

發(fā)布時(shí)間:2019-08-07 15:23
【摘要】:微博立場(chǎng)檢測(cè)是判斷微博作者對(duì)某一個(gè)話題的態(tài)度是支持、反對(duì)或中立。在基于監(jiān)督學(xué)習(xí)的分類框架上,擴(kuò)展并提出基于多文本特征融合的中文微博的立場(chǎng)檢測(cè)方法。首先探究了基于詞頻統(tǒng)計(jì)的特征(詞袋特征(Bag-ofWords,Bo W)、基于同義詞典的詞袋特征、考慮詞與立場(chǎng)標(biāo)簽共現(xiàn)關(guān)系的特征)和文本深度特征(詞向量、字向量)。之后使用支持向量機(jī),隨機(jī)森林和梯度提升決策樹對(duì)上述特征進(jìn)行立場(chǎng)分類。最后,結(jié)合所有特征分類器進(jìn)行后期融合。實(shí)驗(yàn)表明,文中提出的特征對(duì)于不同話題下的微博立場(chǎng)檢測(cè)的結(jié)果都有提升,且文本深度特征和基于詞頻統(tǒng)計(jì)的特征能夠捕捉到文本的不同信息,在立場(chǎng)檢測(cè)中是互補(bǔ)的;诒疚姆椒ǖ奈⒉┝(chǎng)檢測(cè)系統(tǒng)在2016年自然語言處理與中文計(jì)算會(huì)議(NLPCC2016)的中文微博立場(chǎng)檢測(cè)評(píng)測(cè)任務(wù)中取得了最好的結(jié)果。
【圖文】:

基于多文本特征融合的中文微博的立場(chǎng)檢測(cè),奠雨潔;金琴;吳慧敏;《計(jì)算機(jī)工程與應(yīng)用》;2017年21期


2017,53(21)取了字向量特征;谏鲜鎏卣鳎褂秒S機(jī)森林、SVM和GBDT進(jìn)行立場(chǎng)分類并使用特征分類器的后期融合來預(yù)測(cè)最終立常3系統(tǒng)說明如圖1所示,本文提出的基于監(jiān)督學(xué)習(xí)的立場(chǎng)檢測(cè)方法,共分為4個(gè)階段:數(shù)據(jù)預(yù)處理、特征抽娶立場(chǎng)分類和后期融合。3.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理包括清洗語料、漢字簡繁體轉(zhuǎn)化、分詞和去除停用詞。在原始的微博中有很多新聞標(biāo)題,表情符號(hào)和URL鏈接,這些信息會(huì)增加微博正文的噪音,因此,在語料清洗階段,使用正則表達(dá)式去除這些信息。例如:原始微博:【禁摩限電:國家權(quán)力“內(nèi)卷化”之弊-FT中文網(wǎng)】從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……(分享自@FT中文網(wǎng))http://t.cn/Rq4oQ6N清洗后微博:從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……如果一條微博在清洗過后不包含任何內(nèi)容,那么認(rèn)為這條微博是沒有立場(chǎng)的。語料清洗過程中去除的文本和對(duì)應(yīng)的示例如表1所示。語料清洗結(jié)束后,使用開源工具zhtools(https://github.com/skydark/nstools/blob/master/zhtools/)進(jìn)行漢字簡繁體轉(zhuǎn)換,再使用結(jié)巴(jieba)(https://github.com/fxsjy/jieba)對(duì)微博進(jìn)行分詞。3.2特征抽取基于有監(jiān)督的機(jī)器學(xué)習(xí)的方法,通過選取大量有意義的特征來完成分類任務(wù)。在文本分類中,,通常選取的特征是基于詞頻的特征,例如n-gram等。本文抽取了兩類特征:基于詞頻統(tǒng)計(jì)的特征和文本深度特征;谠~頻統(tǒng)計(jì)的特征包括:基于Unigram的詞袋特征、基于同義詞典的詞袋特征、基于主題詞和立場(chǎng)類別標(biāo)簽共現(xiàn)關(guān)系的特征。文本深度特征是來自word
【作者單位】: 中國人民大學(xué)信息學(xué)院;
【基金】:國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No.2016YFB1001202)
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 郭飛飛;王小華;諶志群;王榮波;;基于回應(yīng)消息的中文微博情感分類方法[J];杭州電子科技大學(xué)學(xué)報(bào);2013年06期

2 李赫元;俞曉明;劉悅;程學(xué)旗;程工;;中文微博客的垃圾用戶檢測(cè)[J];中文信息學(xué)報(bào);2014年03期

3 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學(xué)報(bào);2012年06期

4 陳文亮;朱靖波;朱慕華;姚天順;;基于領(lǐng)域詞典的文本特征表示[J];計(jì)算機(jī)研究與發(fā)展;2005年12期

5 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術(shù)師范學(xué)院學(xué)報(bào);2014年03期

6 唐曉文;基于本體論的文本特征提取[J];電腦與信息技術(shù);2005年01期

7 陳炯;張永奎;;一種基于詞聚類的文本特征描述方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年02期

8 陳振亞;陳光輝;徐建民;;一種基于本體的文本特征選取方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

9 平源;周亞建;張海濱;王樅;楊義先;;強(qiáng)化類別貢獻(xiàn)的文本特征權(quán)重方案[J];北京工業(yè)大學(xué)學(xué)報(bào);2012年09期

10 楊棉絨;;基于文本特征的信息隱藏策略[J];新鄉(xiāng)學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期

相關(guān)會(huì)議論文 前6條

1 朱浩然;梁循;馬躍峰;紀(jì)陽;李啟東;馬超;;金融領(lǐng)域中文微博情感分析[A];第八屆(2013)中國管理學(xué)年會(huì)——金融分會(huì)場(chǎng)論文集[C];2013年

2 王錦;王會(huì)珍;張俐;;基于維基百科類別的文本特征表示[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

3 孔維澤;劉奕群;張敏;馬少平;;問答社區(qū)中回答質(zhì)量的評(píng)價(jià)方法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

4 朱祥玉;侯德文;陳希;;基于雙重評(píng)估函數(shù)的文本特征提取方法[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(二)[C];2005年

5 代勁;何中市;胡峰;;一種高性能的文本特征自動(dòng)提取算法[A];2009年中國智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年

6 顏燕;;新浪微博上的天文科普[A];科普惠民 責(zé)任與擔(dān)當(dāng)——中國科普理論與實(shí)踐探索——第二十屆全國科普理論研討會(huì)論文集[C];2013年

相關(guān)博士學(xué)位論文 前1條

1 錢濤;中文微博文本規(guī)范化方法及關(guān)鍵技術(shù)研究[D];武漢大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 張彬;中文微博情感傾向性分析研究[D];華南理工大學(xué);2015年

2 田樂;中文微博中的問題檢測(cè)技術(shù)研究[D];復(fù)旦大學(xué);2014年

3 張俊;中文微博情感分析[D];西北民族大學(xué);2015年

4 金鎮(zhèn)晟;基于改進(jìn)的TF-IDF算法的中文微博話題檢測(cè)與研究[D];北京理工大學(xué);2015年

5 夏夢(mèng)南;中文微博情感傾向性分析與情感要素抽取方法[D];北京工業(yè)大學(xué);2015年

6 鄒夢(mèng)宇;基于多方法融合的中文微博情感傾向性分析研究[D];北方工業(yè)大學(xué);2016年

7 邢紀(jì)哲;基于中文微博的情感分類技術(shù)研究[D];東北大學(xué);2014年

8 李翠;小學(xué)語文微課設(shè)計(jì)開發(fā)研究[D];貴州師范大學(xué);2015年

9 梁禮欣;基于條件隨機(jī)場(chǎng)的中文微博情感分析研究[D];廣東工業(yè)大學(xué);2016年

10 黃曉琴;基于核心素養(yǎng)的小學(xué)語文微課程開發(fā)研究[D];西南大學(xué);2016年



本文編號(hào):2524031

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2524031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6fa35***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com