天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的中文微博主觀情感分類(lèi)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-03-23 06:33

  本文選題:微博 切入點(diǎn):情感分類(lèi) 出處:《華東師范大學(xué)》2014年碩士論文 論文類(lèi)型:學(xué)位論文


【摘要】:微博是互聯(lián)網(wǎng)快速發(fā)展的一個(gè)產(chǎn)物,以其快速、隨意的特點(diǎn)吸引了大量的用戶(hù)。微博用戶(hù)熱衷于在上面發(fā)布自己的狀態(tài)及觀點(diǎn)。隨著微博的不斷發(fā)展,用戶(hù)量不斷增長(zhǎng),截止至2013年,僅新浪微博的用戶(hù)量便已達(dá)到了5.03億。如此巨大的用戶(hù)量導(dǎo)致每天微博上新產(chǎn)生的信息不計(jì)其數(shù)。這些微博信息通常都具有強(qiáng)烈的感情色彩,分析這些信息能夠獲得很多隱藏的知識(shí)、數(shù)據(jù),能為生活、工作帶來(lái)很大的幫助。文本情感分類(lèi)的研究與應(yīng)用目前在國(guó)內(nèi)外信息研究與應(yīng)用領(lǐng)域正在得到大家的普遍關(guān)注,成為一個(gè)熱點(diǎn)的信息研究、挖掘與應(yīng)用的課題。 互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)一般指一個(gè)公司或企業(yè)創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。微博信息便是典型的大數(shù)據(jù)之一。然而,由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的不足,在它上面分析大數(shù)據(jù)將會(huì)花費(fèi)過(guò)多的時(shí)間和金錢(qián)。云計(jì)算的出現(xiàn)彌補(bǔ)了這些不足,滿(mǎn)足了大數(shù)據(jù)的分析需求。云計(jì)算將作業(yè)的計(jì)算任務(wù)分布到了大量的分布式計(jì)算機(jī)上,擁有強(qiáng)大的計(jì)算處理能力。在現(xiàn)今的研究開(kāi)發(fā)過(guò)程中,大數(shù)據(jù)的分析通常都與云計(jì)算聯(lián)系在一起。 本文在研究分析了現(xiàn)有的文本情感分類(lèi)技術(shù)的基礎(chǔ)上,結(jié)合微博文本的特點(diǎn),提出了一個(gè)基于Hadoop的中文微博主觀情感分類(lèi)系統(tǒng)。首先,根據(jù)微博信息的特點(diǎn),建立了適用于中文微博情感分類(lèi)的情感字典;其次,根據(jù)Map/Reduce編程模型,提出了基于Hadoop的分布式樸素貝葉斯分類(lèi)算法,用以處理大規(guī)模的新浪微博數(shù)據(jù);然后,針對(duì)包含最新網(wǎng)絡(luò)詞匯的信息,輔助以基于情感字典的情感分類(lèi)法來(lái)進(jìn)行情感分類(lèi);最后,選擇適當(dāng)?shù)娜诤纤惴▉?lái)結(jié)合本文兩個(gè)算法的結(jié)果,以得到最終的分類(lèi)結(jié)果。本文將該系統(tǒng)應(yīng)用于新浪微博,實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠很好地適用于微博情感分類(lèi),達(dá)到了較理想的分類(lèi)效果,對(duì)處理海量的中文微博信息具有可行性。
[Abstract]:Weibo is a product of the rapid development of the Internet, which has attracted a large number of users with its rapid and casual characteristics. Weibo users are keen to publish their status and views on the Internet. With the continuous development of Weibo, the number of users has been growing. As of 2013, the number of users of Sina Weibo alone had reached 503 million. With such a huge number of users, there are countless new messages generated every day on Weibo, which usually have a strong emotional color. Analysis of this information can obtain a lot of hidden knowledge, data, can bring a lot of help to life and work. The research and application of text emotion classification is getting the universal attention in the field of information research and application at home and abroad. Become a hot topic of information research, mining and application. The development of the Internet has brought about the arrival of big data's era. Big data generally refers to a large number of unstructured and semi-structured data created by a company or enterprise. Because of the shortcomings of the traditional relational database, it will take too much time and money to analyze big data on it. The emergence of cloud computing has made up for these shortcomings. Cloud computing distributes the computing tasks of jobs to a large number of distributed computers, and has powerful computing and processing power. In today's research and development process, Big data's analysis is usually linked to cloud computing. Based on the research and analysis of the existing text emotion classification technology and the characteristics of Weibo's text, this paper puts forward a subjective emotion classification system based on Hadoop. First of all, according to the characteristics of Weibo information, Secondly, according to the Map/Reduce programming model, a distributed naive Bayesian classification algorithm based on Hadoop is proposed to deal with large-scale Sina Weibo data. For the information containing the latest online vocabulary, the emotion classification method based on emotion dictionary is used to classify emotion. Finally, the appropriate fusion algorithm is selected to combine the results of the two algorithms in this paper. In order to obtain the final classification result, this paper applies the system to Sina Weibo. The experimental results show that the method proposed in this paper can be well applied to Weibo emotional classification, and achieve a better classification effect. It is feasible to deal with huge amount of Chinese Weibo information.
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092;TP391.1

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉明;袁保宗;;遺傳模糊系統(tǒng)的分類(lèi)器融合[J];北京交通大學(xué)學(xué)報(bào);2007年02期

2 施永春;;基于Adaboost的SAR圖像溢油檢測(cè)[J];電腦知識(shí)與技術(shù);2011年29期

3 杜玉輝;蔣姣麗;;大數(shù)據(jù)背景:高速公路收費(fèi)系統(tǒng)數(shù)據(jù)的現(xiàn)狀、分析與展望[J];電腦知識(shí)與技術(shù);2012年15期

4 李滿(mǎn)意;;大數(shù)據(jù)安全[J];保密科學(xué)技術(shù);2012年09期

5 黃曉斌;鐘輝新;;大數(shù)據(jù)時(shí)代企業(yè)競(jìng)爭(zhēng)情報(bào)研究的創(chuàng)新與發(fā)展[J];圖書(shū)與情報(bào);2012年06期

6 李馮筱;羅高松;;NoSQL理論體系及應(yīng)用[J];電信科學(xué);2012年12期

7 成靜靜;喻朝新;;基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)研究與設(shè)計(jì)[J];廣東通信技術(shù);2013年01期

8 陳云海;黃蘭秋;;大數(shù)據(jù)處理對(duì)電子商務(wù)的影響研究[J];電信科學(xué);2013年03期

9 王偉;;大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生漫談[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年07期

10 馬建光;姜巍;;大數(shù)據(jù)的概念、特征及其應(yīng)用[J];國(guó)防科技;2013年02期

相關(guān)會(huì)議論文 前7條

1 王中卿;李壽山;朱巧明;李培峰;周?chē)?guó)棟;;基于不平衡數(shù)據(jù)的中文情感分類(lèi)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 蔡津津;郜新鑫;付建俐;;基于業(yè)務(wù)元數(shù)據(jù)標(biāo)準(zhǔn)化的金融財(cái)經(jīng)數(shù)據(jù)倉(cāng)庫(kù)及服務(wù)系統(tǒng)架構(gòu)探討[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2012年學(xué)術(shù)年會(huì)、五屆四次理事會(huì)暨第六屆“王選新聞科學(xué)技術(shù)獎(jiǎng)”的“人才獎(jiǎng)”和“優(yōu)秀論文獎(jiǎng)”頒獎(jiǎng)大會(huì)論文集[C];2012年

3 周為鋼;楊良懷;潘建;鄭申俊;沈貝倫;沈俊青;;論智能交通大數(shù)據(jù)處理平臺(tái)之構(gòu)建[A];第八屆中國(guó)智能交通年會(huì)論文集[C];2013年

4 周軍;何力;韓偉紅;鄧璐;;基于機(jī)器學(xué)習(xí)的中文評(píng)論傾向性分類(lèi)實(shí)證研究[A];第28次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2013年

5 朱浩然;梁循;馬躍峰;紀(jì)陽(yáng);李啟東;馬超;;金融領(lǐng)域中文微博情感分析[A];第八屆(2013)中國(guó)管理學(xué)年會(huì)論文集(選編)[C];2013年

6 譚勝淋;陳曦;;大數(shù)據(jù)的標(biāo)準(zhǔn)化研究[A];市場(chǎng)踐行標(biāo)準(zhǔn)化——第十一屆中國(guó)標(biāo)準(zhǔn)化論壇論文集[C];2014年

7 朱浩然;梁循;馬躍峰;紀(jì)陽(yáng);李啟東;馬超;;金融領(lǐng)域中文微博情感分析[A];第八屆(2013)中國(guó)管理學(xué)年會(huì)——金融分會(huì)場(chǎng)論文集[C];2013年

相關(guān)博士學(xué)位論文 前10條

1 陳進(jìn);高光譜圖像分類(lèi)方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

2 王欣;漢日否定表達(dá)對(duì)比研究[D];吉林大學(xué);2011年

3 張春霞;集成學(xué)習(xí)中有關(guān)算法的研究[D];西安交通大學(xué);2010年

4 湯步洲;序列標(biāo)注問(wèn)題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年

5 方育柯;集成學(xué)習(xí)理論研究及其在個(gè)性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年

6 張沐光;基于局部—全局結(jié)構(gòu)分析的統(tǒng)計(jì)過(guò)程監(jiān)測(cè)方法研究[D];浙江大學(xué);2011年

7 文貞惠;現(xiàn)代漢語(yǔ)否定范疇研究[D];復(fù)旦大學(xué);2003年

8 陳貞翔;具有規(guī)模適應(yīng)性的互聯(lián)網(wǎng)流量識(shí)別方法研究[D];山東大學(xué);2008年

9 萬(wàn)源;基于語(yǔ)義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年

10 黃蘭秋;基于云計(jì)算的企業(yè)競(jìng)爭(zhēng)情報(bào)服務(wù)模式研究[D];南開(kāi)大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 張秀芳;現(xiàn)代漢語(yǔ)中“信任”“懷疑”的表達(dá)方式研究[D];安徽大學(xué);2011年

2 田原;小麥與玉米葉部表觀建模與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

3 翟永超;品牌服裝企劃系統(tǒng)中的產(chǎn)品預(yù)測(cè)系統(tǒng)架構(gòu)設(shè)計(jì)[D];東華大學(xué);2012年

4 張喜芹;漢語(yǔ)語(yǔ)用否定研究[D];暨南大學(xué);2009年

5 李濤;基于半監(jiān)督技術(shù)的集成分類(lèi)研究[D];西北農(nóng)林科技大學(xué);2009年

6 丁爽;一種基于小波變換特征提取的集成學(xué)習(xí)算法[D];河南大學(xué);2010年

7 沈姝;NoSQL數(shù)據(jù)庫(kù)技術(shù)及其應(yīng)用研究[D];南京信息工程大學(xué);2012年

8 魏玉英;基于MapReduce的網(wǎng)絡(luò)書(shū)寫(xiě)紋識(shí)別關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2012年

9 葉舒;“不”和“沒(méi)(有)”的習(xí)得研究[D];渤海大學(xué);2012年

10 洪扨昊;漢韓否定詞對(duì)比研究[D];湖南師范大學(xué);2012年

,

本文編號(hào):1652345

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1652345.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)3b3c0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com