結合話題相關性的微博文本情感分類研究與實現(xiàn)
發(fā)布時間:2021-06-14 19:20
隨著互聯(lián)網社交的流行,以新浪微博為主的社交平臺得到了極大的發(fā)展,截止2019年,新浪微博文本數(shù)據(jù)日均發(fā)布量高達1.5億,是文本數(shù)據(jù)日均發(fā)布量最高的平臺。這些文本數(shù)據(jù)中包含了大量的主觀信息,如果能夠對這些主觀信息進行有效地分析,及時了解用戶的情感傾向,并抽取出相應的觀點,就可以有效把握輿論趨勢,繼而惠及政府和民眾。故許多研究人員展開了對微博文本進行情感分析的研究。對于微博文本情感分類,以前的方法大多是用人工特征進行粗粒度二分類,會耗費大量人力資源且分類結果較為簡單,同時沒有對用戶的觀點做進一步的抽取及可視化,使得用戶對情感分類結果較難理解。此外,微博文本是話題與正文結合在一起的形式,很多情況下二者并不相關,若直接對其進行情感分類則會額外耗費資源且對分類器造成干擾。針對以上不足,本文結合話題相關性研究并實現(xiàn)了微博文本情感分類系統(tǒng),本文主要包含以下幾方面的工作:1.構建結合話題相關性的微博文本情感分類模型。該模型包括數(shù)據(jù)獲取模塊、數(shù)據(jù)預處理模塊、話題相關性分析模塊、微博文本細粒度情感分類模塊、觀點詞抽取情感分析模塊共五個模塊。2.給出一種不觸發(fā)反爬蟲機制的微博文本批量獲取方法以及包含分詞、去...
【文章來源】:西南大學重慶市 211工程院校 教育部直屬院校
【文章頁數(shù)】:90 頁
【學位級別】:碩士
【部分圖文】:
帶話題的微博文本示例
西南大學工程碩士學位論文2上圖中,“#翟天臨涉學術論文造假#”“#昆山燃爆#”引發(fā)了網友們的激烈討論,在微博中跟蹤這些熱點事件的討論話題,通過對該話題下的微博文本的情感傾向判斷與總結,可以發(fā)現(xiàn)大眾對具體的國家政策、時事的關注程度以及是否支持,從而為相關的輿論,政策制定提供參考信息。所以,聯(lián)合話題對微博文本進行分析[2-3]可以為情感分析提供一個更具體的視角,從而更有利于輔助政府進行網絡輿情監(jiān)測,維持社會穩(wěn)定。對于微博上出現(xiàn)的這些用戶原創(chuàng)內容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點以及情緒傾向信息,如何將這些信息通過合理地可視化呈現(xiàn)給用戶,也是一項有意義的工作。例如騰訊AI平臺情感傾向分析模塊中,就可以將用戶輸入的任何文本以一個狀態(tài)條的形式表達出情感極性及其強弱,使得用戶能直觀地得到情感信息。騰訊AI平臺情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實習期間,擔任微博情感分類工具的研發(fā)工作,其成果的一部分轉化為了百度數(shù)說中的紅黑榜模塊。其中紅黑粉比例是指對于某個明星而言,其在某一時間段內,微博粉絲對該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
西南大學工程碩士學位論文2上圖中,“#翟天臨涉學術論文造假#”“#昆山燃爆#”引發(fā)了網友們的激烈討論,在微博中跟蹤這些熱點事件的討論話題,通過對該話題下的微博文本的情感傾向判斷與總結,可以發(fā)現(xiàn)大眾對具體的國家政策、時事的關注程度以及是否支持,從而為相關的輿論,政策制定提供參考信息。所以,聯(lián)合話題對微博文本進行分析[2-3]可以為情感分析提供一個更具體的視角,從而更有利于輔助政府進行網絡輿情監(jiān)測,維持社會穩(wěn)定。對于微博上出現(xiàn)的這些用戶原創(chuàng)內容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點以及情緒傾向信息,如何將這些信息通過合理地可視化呈現(xiàn)給用戶,也是一項有意義的工作。例如騰訊AI平臺情感傾向分析模塊中,就可以將用戶輸入的任何文本以一個狀態(tài)條的形式表達出情感極性及其強弱,使得用戶能直觀地得到情感信息。騰訊AI平臺情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實習期間,擔任微博情感分類工具的研發(fā)工作,其成果的一部分轉化為了百度數(shù)說中的紅黑榜模塊。其中紅黑粉比例是指對于某個明星而言,其在某一時間段內,微博粉絲對該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
【參考文獻】:
期刊論文
[1]邏輯公式間的Jaccard距離及其應用[J]. 于鵬. 計算機科學與探索. 2020(11)
[2]基于雙重注意力模型的微博情感傾向性分析[J]. 羅春春,郝曉燕. 南京大學學報(自然科學). 2020(02)
[3]CNNIC發(fā)布第44次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉. 網信軍民融合. 2019(09)
[4]基于文本聚類的網絡微博輿情話題識別與追蹤技術研究[J]. 閆俊伢,馬尚才. 重慶理工大學學報(自然科學). 2019(09)
[5]基于HowNet的語義表示學習[J]. 朱靖雯,楊玉基,許斌,李涓子. 中文信息學報. 2019(03)
[6]基于話題標簽的微博熱點話題演化研究[J]. 李慧,王麗婷. 情報科學. 2019(01)
[7]面向微博短文本分類的文本向量化方法比較研究[J]. 李心蕾,王昊,劉小敏,鄧三鴻. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[8]中文微博情感分析研究與實現(xiàn)[J]. 李勇敢,周學廣,孫艷,張煥國. 軟件學報. 2017 (12)
[9]結合話題相關性的熱點話題情感傾向研究[J]. 何躍,肖敏,張月. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[10]用于微博情感分析的一種情感語義增強的深度學習模型[J]. 何炎祥,孫松濤,牛菲菲,李飛. 計算機學報. 2017(04)
碩士論文
[1]基于LDA模型的微博情感分析技術研究[D]. 毛龍龍.西北師范大學 2015
本文編號:3230176
【文章來源】:西南大學重慶市 211工程院校 教育部直屬院校
【文章頁數(shù)】:90 頁
【學位級別】:碩士
【部分圖文】:
帶話題的微博文本示例
西南大學工程碩士學位論文2上圖中,“#翟天臨涉學術論文造假#”“#昆山燃爆#”引發(fā)了網友們的激烈討論,在微博中跟蹤這些熱點事件的討論話題,通過對該話題下的微博文本的情感傾向判斷與總結,可以發(fā)現(xiàn)大眾對具體的國家政策、時事的關注程度以及是否支持,從而為相關的輿論,政策制定提供參考信息。所以,聯(lián)合話題對微博文本進行分析[2-3]可以為情感分析提供一個更具體的視角,從而更有利于輔助政府進行網絡輿情監(jiān)測,維持社會穩(wěn)定。對于微博上出現(xiàn)的這些用戶原創(chuàng)內容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點以及情緒傾向信息,如何將這些信息通過合理地可視化呈現(xiàn)給用戶,也是一項有意義的工作。例如騰訊AI平臺情感傾向分析模塊中,就可以將用戶輸入的任何文本以一個狀態(tài)條的形式表達出情感極性及其強弱,使得用戶能直觀地得到情感信息。騰訊AI平臺情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實習期間,擔任微博情感分類工具的研發(fā)工作,其成果的一部分轉化為了百度數(shù)說中的紅黑榜模塊。其中紅黑粉比例是指對于某個明星而言,其在某一時間段內,微博粉絲對該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
西南大學工程碩士學位論文2上圖中,“#翟天臨涉學術論文造假#”“#昆山燃爆#”引發(fā)了網友們的激烈討論,在微博中跟蹤這些熱點事件的討論話題,通過對該話題下的微博文本的情感傾向判斷與總結,可以發(fā)現(xiàn)大眾對具體的國家政策、時事的關注程度以及是否支持,從而為相關的輿論,政策制定提供參考信息。所以,聯(lián)合話題對微博文本進行分析[2-3]可以為情感分析提供一個更具體的視角,從而更有利于輔助政府進行網絡輿情監(jiān)測,維持社會穩(wěn)定。對于微博上出現(xiàn)的這些用戶原創(chuàng)內容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點以及情緒傾向信息,如何將這些信息通過合理地可視化呈現(xiàn)給用戶,也是一項有意義的工作。例如騰訊AI平臺情感傾向分析模塊中,就可以將用戶輸入的任何文本以一個狀態(tài)條的形式表達出情感極性及其強弱,使得用戶能直觀地得到情感信息。騰訊AI平臺情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實習期間,擔任微博情感分類工具的研發(fā)工作,其成果的一部分轉化為了百度數(shù)說中的紅黑榜模塊。其中紅黑粉比例是指對于某個明星而言,其在某一時間段內,微博粉絲對該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
【參考文獻】:
期刊論文
[1]邏輯公式間的Jaccard距離及其應用[J]. 于鵬. 計算機科學與探索. 2020(11)
[2]基于雙重注意力模型的微博情感傾向性分析[J]. 羅春春,郝曉燕. 南京大學學報(自然科學). 2020(02)
[3]CNNIC發(fā)布第44次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉. 網信軍民融合. 2019(09)
[4]基于文本聚類的網絡微博輿情話題識別與追蹤技術研究[J]. 閆俊伢,馬尚才. 重慶理工大學學報(自然科學). 2019(09)
[5]基于HowNet的語義表示學習[J]. 朱靖雯,楊玉基,許斌,李涓子. 中文信息學報. 2019(03)
[6]基于話題標簽的微博熱點話題演化研究[J]. 李慧,王麗婷. 情報科學. 2019(01)
[7]面向微博短文本分類的文本向量化方法比較研究[J]. 李心蕾,王昊,劉小敏,鄧三鴻. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[8]中文微博情感分析研究與實現(xiàn)[J]. 李勇敢,周學廣,孫艷,張煥國. 軟件學報. 2017 (12)
[9]結合話題相關性的熱點話題情感傾向研究[J]. 何躍,肖敏,張月. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[10]用于微博情感分析的一種情感語義增強的深度學習模型[J]. 何炎祥,孫松濤,牛菲菲,李飛. 計算機學報. 2017(04)
碩士論文
[1]基于LDA模型的微博情感分析技術研究[D]. 毛龍龍.西北師范大學 2015
本文編號:3230176
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3230176.html
最近更新
教材專著