面向用戶評(píng)論的細(xì)粒度情感分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-02-05 06:12
隨著互聯(lián)網(wǎng)的快速發(fā)展,各種電子商務(wù)網(wǎng)站以及購(gòu)物網(wǎng)站等也呈現(xiàn)了前所未有的增長(zhǎng)速度,這就導(dǎo)致了大量網(wǎng)絡(luò)評(píng)論短文本源源不斷的產(chǎn)生。這些評(píng)論短文本中承載許多有用的用戶評(píng)價(jià)信息,通過(guò)有效的分析這些評(píng)價(jià)短文本,不僅能夠獲得重要的信息,還能夠促進(jìn)電子商業(yè)的發(fā)展和繁榮。因此,當(dāng)代網(wǎng)絡(luò)輿情分析的關(guān)注點(diǎn)已經(jīng)逐漸轉(zhuǎn)移到了文本分析處理上。針對(duì)這一背景,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)細(xì)粒度層次的情感分析系統(tǒng),解決了人工處理網(wǎng)絡(luò)評(píng)論文本費(fèi)時(shí)費(fèi)力,分析不全面,效率低下等問(wèn)題。本文主要利用對(duì)本文系統(tǒng)采集到的數(shù)據(jù)進(jìn)行處理分析得到的結(jié)果進(jìn)行情感分析,最終以直觀的界面化的形式展現(xiàn)在用戶面前,為用戶提供便利。下面是本文所用到的一些主要的技術(shù)以及方法:(1)提出了基于聚類的垃圾評(píng)論檢測(cè)方法本文首先對(duì)采集到的數(shù)據(jù)進(jìn)行了預(yù)處理工作,將半結(jié)構(gòu)化的網(wǎng)頁(yè)轉(zhuǎn)換成了結(jié)構(gòu)化數(shù)據(jù)的形式,進(jìn)而發(fā)現(xiàn)信息量過(guò)大將會(huì)對(duì)我們進(jìn)行情感傾向性分析帶來(lái)很大困擾。所以,考慮在進(jìn)行情感分析之前進(jìn)行信息的過(guò)濾,提出基于聚類垃圾評(píng)論過(guò)濾的方法。經(jīng)過(guò)一系列的處理,將這些評(píng)論信息根據(jù)它們的相似性進(jìn)行聚類,然后在此聚類的基礎(chǔ)上進(jìn)行處理。并且通過(guò)實(shí)驗(yàn)證明了,該方法具有高效性以及實(shí)用性。...
【文章來(lái)源】:山東師范大學(xué)山東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
我們可以看出,爬蟲程序是用于收集信息的一種最基本的程序,其爬取數(shù)據(jù)??快速、全面、程序簡(jiǎn)單,所以本文也考慮用此種方法進(jìn)行所需信息的采集。網(wǎng)絡(luò)爬蟲的??基本結(jié)構(gòu)如圖2-1所示。????初始URL地址??請(qǐng)求網(wǎng)頁(yè)新解析出的URL???丫??解麵頁(yè)?y??存儲(chǔ)系統(tǒng)??^?」??圖2-1網(wǎng)絡(luò)爬蟲基本結(jié)構(gòu)圖??8??
?已抓取?URL??圖2-2網(wǎng)絡(luò)爬蟲框架??如圖2-2為一個(gè)基本的網(wǎng)絡(luò)爬蟲的框架,從圖中,我們可以看出網(wǎng)絡(luò)爬蟲工作時(shí),??首先會(huì)從種子URL開(kāi)始,然后將其傳遞到待抓取的URL序列。接下來(lái)讀取URL,然后??解析DNS,下載網(wǎng)頁(yè)。第三步,將己經(jīng)下載的URL放入己抓取的URL隊(duì)列,分析URL??以及URL隊(duì)列中的其他URL,然后進(jìn)入下一步的循環(huán)。以上就是網(wǎng)絡(luò)爬蟲一個(gè)基本的??工作流程。本文采用的是兼容性較好的爬行范圍廣的通用性網(wǎng)絡(luò)爬蟲。??2.1.2?Robots.txt?協(xié)議??9??
【參考文獻(xiàn)】:
期刊論文
[1]中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J]. 柳位平,朱艷輝,栗春亮,向華政,文志強(qiáng). 計(jì)算機(jī)應(yīng)用. 2009(10)
[2]漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的構(gòu)建[J]. 宋鴻彥,劉軍,姚天昉,劉全升,黃高輝. 中文信息學(xué)報(bào). 2009(02)
[3]文本意見(jiàn)挖掘綜述[J]. 姚天昉,程希文,徐飛玉,漢思·烏思克爾特,王睿. 中文信息學(xué)報(bào). 2008(03)
[4]情感語(yǔ)料庫(kù)的構(gòu)建和分析[J]. 徐琳宏,林鴻飛,趙晶. 中文信息學(xué)報(bào). 2008(01)
[5]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3614712
【文章來(lái)源】:山東師范大學(xué)山東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
我們可以看出,爬蟲程序是用于收集信息的一種最基本的程序,其爬取數(shù)據(jù)??快速、全面、程序簡(jiǎn)單,所以本文也考慮用此種方法進(jìn)行所需信息的采集。網(wǎng)絡(luò)爬蟲的??基本結(jié)構(gòu)如圖2-1所示。????初始URL地址??請(qǐng)求網(wǎng)頁(yè)新解析出的URL???丫??解麵頁(yè)?y??存儲(chǔ)系統(tǒng)??^?」??圖2-1網(wǎng)絡(luò)爬蟲基本結(jié)構(gòu)圖??8??
?已抓取?URL??圖2-2網(wǎng)絡(luò)爬蟲框架??如圖2-2為一個(gè)基本的網(wǎng)絡(luò)爬蟲的框架,從圖中,我們可以看出網(wǎng)絡(luò)爬蟲工作時(shí),??首先會(huì)從種子URL開(kāi)始,然后將其傳遞到待抓取的URL序列。接下來(lái)讀取URL,然后??解析DNS,下載網(wǎng)頁(yè)。第三步,將己經(jīng)下載的URL放入己抓取的URL隊(duì)列,分析URL??以及URL隊(duì)列中的其他URL,然后進(jìn)入下一步的循環(huán)。以上就是網(wǎng)絡(luò)爬蟲一個(gè)基本的??工作流程。本文采用的是兼容性較好的爬行范圍廣的通用性網(wǎng)絡(luò)爬蟲。??2.1.2?Robots.txt?協(xié)議??9??
【參考文獻(xiàn)】:
期刊論文
[1]中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J]. 柳位平,朱艷輝,栗春亮,向華政,文志強(qiáng). 計(jì)算機(jī)應(yīng)用. 2009(10)
[2]漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的構(gòu)建[J]. 宋鴻彥,劉軍,姚天昉,劉全升,黃高輝. 中文信息學(xué)報(bào). 2009(02)
[3]文本意見(jiàn)挖掘綜述[J]. 姚天昉,程希文,徐飛玉,漢思·烏思克爾特,王睿. 中文信息學(xué)報(bào). 2008(03)
[4]情感語(yǔ)料庫(kù)的構(gòu)建和分析[J]. 徐琳宏,林鴻飛,趙晶. 中文信息學(xué)報(bào). 2008(01)
[5]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3614712
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3614712.html
最近更新
教材專著