近幾年,隨著微博問(wèn)政的興起,越來(lái)越多的政府部門開(kāi)設(shè)官方微博與百姓互動(dòng)。例如,“北京12345”作為政務(wù)微博的正式開(kāi)通,極大方便了群眾反映非緊急救助服務(wù)類訴求。由于微博平臺(tái)的大眾化、平民化,且用戶操作便捷,使得每天收到的投訴微博數(shù)量巨大。如何采用計(jì)算機(jī)技術(shù),及時(shí)抽取主要的投訴事件,改變現(xiàn)有的人工校對(duì)過(guò)程,讓事件的提取自動(dòng)化,從而在最短時(shí)間內(nèi)發(fā)現(xiàn)熱點(diǎn)問(wèn)題、熱點(diǎn)地區(qū),上報(bào)有關(guān)部門及時(shí)處理,對(duì)百姓民生、城市發(fā)展有著重要的推進(jìn)作用。因此,基于微博的城市投訴文本的挖掘與分析研究有著重要的研究?jī)r(jià)值和現(xiàn)實(shí)意義。城市投訴信息中地理位置對(duì)于投訴事件有著重要的意義,沒(méi)有具體位置的投訴信息是無(wú)效的。然而目前網(wǎng)絡(luò)上的投訴信息,由于投訴者在表達(dá)上存在差異,導(dǎo)致投訴信息無(wú)法形成統(tǒng)一的書(shū)寫規(guī)范,尤其是微博上的投訴信息,具有表達(dá)方式口語(yǔ)化、新詞匯多、錯(cuò)別字多等特點(diǎn),投訴信息中涉及的地理位置一般比較具體,并與投訴內(nèi)容混雜在一起,使得地理位置的提取、區(qū)域的自動(dòng)劃歸存在較大的難度。本課題主要針對(duì)微博城市投訴信息領(lǐng)域進(jìn)行文本挖掘與分析,以北京12345政務(wù)微博投訴數(shù)據(jù)為基礎(chǔ),利用信息抽取技術(shù),自動(dòng)抽取投訴事件,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),著重研究該領(lǐng)域的地理位置實(shí)體識(shí)別、地理位置實(shí)體完整性表示以及投訴分析平臺(tái)中的應(yīng)用。目的幫助城市管理部門相關(guān)工作人員更有效、更便捷的分析城市投訴微博。本文的主要研究?jī)?nèi)容包括:(1)設(shè)計(jì)并實(shí)現(xiàn)了一種自動(dòng)采集城市投訴微博的網(wǎng)絡(luò)爬蟲(chóng)。通過(guò)分析已有的新浪微博爬蟲(chóng)的現(xiàn)狀,從性能、可操作性兩個(gè)角度考慮,設(shè)計(jì)了基于新浪微博頁(yè)面解析的微博網(wǎng)絡(luò)爬蟲(chóng),該爬蟲(chóng)能夠通過(guò)主題詞對(duì)城市投訴微博進(jìn)行采集,并且不受使用新浪微博API的限制,從而實(shí)現(xiàn)頁(yè)面的自動(dòng)爬取。(2)提出微博城市投訴文本中的地理位置實(shí)體識(shí)別方法。首先,引用搜狗詞庫(kù)中與北京地理位置相關(guān)的詞庫(kù),以及詞性、尾詞、尾字進(jìn)行特征標(biāo)注,利用CRF識(shí)別出地理位置實(shí)體;接下來(lái),根據(jù)微博和地理位置實(shí)體的特點(diǎn),對(duì)CRF識(shí)別后的數(shù)據(jù)進(jìn)行二次標(biāo)注;最后,利用微博規(guī)則庫(kù)對(duì)識(shí)別結(jié)果進(jìn)行補(bǔ)召修正地理位置實(shí)體,最終實(shí)現(xiàn)地理位置實(shí)體的識(shí)別。(3)提出基于互動(dòng)問(wèn)答社區(qū)——百度知道的地理位置實(shí)體完整性表示方法。首先,對(duì)缺陷地理位置實(shí)體轉(zhuǎn)化為所屬區(qū)域問(wèn)題,并通過(guò)百度知道進(jìn)行檢索;其次,根據(jù)檢索的結(jié)果提取特征,計(jì)算該地理位置實(shí)體屬于各個(gè)區(qū)域的得分,并構(gòu)建出缺陷地理位置實(shí)體的所屬區(qū)域特征向量;最后,利用規(guī)則對(duì)缺陷地理位置實(shí)體進(jìn)行完整化處理,實(shí)現(xiàn)地理位置實(shí)體完整性表示。(4)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)微博城市投訴分析平臺(tái)。平臺(tái)主要將基于主題詞的微博獲取、地理位置實(shí)體識(shí)別以及缺陷地理位置實(shí)體完整性表示三大功能模塊進(jìn)行整合。通過(guò)JAVA設(shè)計(jì)的客戶端程序?yàn)橛脩籼峁⿺?shù)據(jù)配置及數(shù)據(jù)處理展示的界面,使平臺(tái)能夠完成自動(dòng)采集城市投訴微博,并對(duì)微博進(jìn)行過(guò)濾,識(shí)別出地理位置實(shí)體,通過(guò)互動(dòng)問(wèn)答社區(qū)——百度知道對(duì)缺陷地理位置實(shí)體進(jìn)行完整化等一系列操作。
【學(xué)位單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2015
【中圖分類】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李雪偉;呂學(xué)強(qiáng);董志安;劉克會(huì);;利用URL-Key進(jìn)行查詢分類[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年02期
2 梁士金;;基于聚焦爬蟲(chóng)的編目數(shù)據(jù)搜集模型構(gòu)建[J];圖書(shū)館學(xué)研究;2013年13期
3 邱泉清;苗奪謙;張志飛;;中文微博命名實(shí)體識(shí)別[J];計(jì)算機(jī)科學(xué);2013年06期
4 高燕;張維維;張艷紅;謝燕萍;蘇凝;;最大熵模型在最長(zhǎng)地點(diǎn)實(shí)體識(shí)別中的應(yīng)用[J];廣東石油化工學(xué)院學(xué)報(bào);2012年04期
5 劉寧雯;;中國(guó)政務(wù)微博研究文獻(xiàn)綜述[J];電子政務(wù);2012年06期
6 潘正高;;基于規(guī)則和統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別研究[J];情報(bào)科學(xué);2012年05期
7 黃河;劉琳琳;;試析政府微博的內(nèi)容主題與發(fā)布方式——基于“廣東省公安廳”與“平安北京”微博的內(nèi)容分析[J];現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào));2012年03期
8 李麗雙;黨延忠;廖文平;黃德根;張穎;;CRF與規(guī)則相結(jié)合的中文地名識(shí)別[J];大連理工大學(xué)學(xué)報(bào);2012年02期
9 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
10 鄧凱元;姜磊;;正則表達(dá)式匹配引擎性能分析[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期
本文編號(hào):
2818046
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2818046.html