跨語(yǔ)言社會(huì)輿情分析的數(shù)據(jù)獲取技術(shù)研究
發(fā)布時(shí)間:2017-09-25 22:16
本文關(guān)鍵詞:跨語(yǔ)言社會(huì)輿情分析的數(shù)據(jù)獲取技術(shù)研究
更多相關(guān)文章: 跨語(yǔ)言 網(wǎng)絡(luò)輿情 網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)獲取 數(shù)據(jù)提取 用戶關(guān)系 社交網(wǎng)絡(luò)
【摘要】:大規(guī)模的互聯(lián)網(wǎng)用戶使得網(wǎng)絡(luò)輿情成為社會(huì)輿情的重要組成部分�;ヂ�(lián)網(wǎng)上的大部分群體性數(shù)據(jù)資源集中在微博、論壇、新聞網(wǎng)站等社交網(wǎng)絡(luò)和QQ、微信等及時(shí)通訊工具上。跨語(yǔ)言社會(huì)輿情分析是我國(guó)智能信息處理的一個(gè)研究熱點(diǎn),中國(guó)少數(shù)民族地區(qū)及周邊國(guó)家的需求,并且社會(huì)輿情傳播的跨語(yǔ)言特性,迫切需要研究跨語(yǔ)言社會(huì)輿情分析基礎(chǔ)理論及關(guān)鍵技術(shù)。維吾爾語(yǔ)是我國(guó)主要少數(shù)民族語(yǔ)言之一,為了構(gòu)建一個(gè)好的跨語(yǔ)言輿情分析系統(tǒng),針對(duì)維吾爾文社交網(wǎng)絡(luò)的輿情分析研究顯得尤為重要。高效和正確地獲取網(wǎng)絡(luò)上的輿情數(shù)據(jù)是網(wǎng)絡(luò)輿情分析中最重要的基礎(chǔ)工作。本文從輿情數(shù)據(jù)來(lái)源的選擇、針對(duì)性網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)、輿情數(shù)據(jù)采集方案的設(shè)計(jì)和輿情數(shù)據(jù)提取方案的設(shè)計(jì)等四個(gè)方面進(jìn)行研究,最后成功的設(shè)計(jì)與實(shí)現(xiàn)了面向維吾爾文社交網(wǎng)絡(luò)的輿情數(shù)據(jù)獲取平臺(tái)。目前,維吾爾文社交網(wǎng)絡(luò)的輿情數(shù)據(jù)獲取研究處于初步階段,該研究的最大的難點(diǎn)之一是維吾爾文微博開(kāi)發(fā)商不提供開(kāi)放API,此情況增加了對(duì)于維吾爾文微博的輿情數(shù)據(jù)獲取的難點(diǎn);另一個(gè)難點(diǎn)是維吾爾文網(wǎng)站的編碼方式和網(wǎng)站結(jié)構(gòu)等方面區(qū)別于中文或英文網(wǎng)站,所以目前流行的網(wǎng)絡(luò)爬蟲(chóng)不適合獲取維吾爾文社交網(wǎng)絡(luò)的數(shù)據(jù)。本文以維吾爾文微博、論壇和新聞網(wǎng)站中的最典型的10個(gè)網(wǎng)站選擇為輿情數(shù)據(jù)來(lái)源的實(shí)驗(yàn)對(duì)象;由于不同網(wǎng)站有不同網(wǎng)站結(jié)構(gòu)的構(gòu)特,并為了保證最終數(shù)據(jù)的高精確性和完整性,本文在網(wǎng)絡(luò)爬蟲(chóng)方面采用了基于聚焦爬蟲(chóng)思路的針對(duì)性網(wǎng)絡(luò)爬蟲(chóng)方法,即對(duì)于每一個(gè)網(wǎng)站分別設(shè)計(jì)專(zhuān)用爬蟲(chóng);達(dá)到獲取大量源數(shù)據(jù)的需求,需要獲取歷史數(shù)據(jù),為此采用了深度優(yōu)先搜索方法和廣度優(yōu)先搜索方法;在數(shù)據(jù)采集方面,為了準(zhǔn)確的判斷數(shù)據(jù)更新情況,采用了增量式數(shù)據(jù)采集方法,為了得到特定網(wǎng)站中的特定目標(biāo)數(shù)據(jù),采用了基于用戶個(gè)性化的數(shù)據(jù)采集方法;由于維吾爾文網(wǎng)站的編碼方式和頁(yè)面布局的特點(diǎn),在數(shù)據(jù)提取方面采用了手工法;為了提高數(shù)據(jù)獲取的速度并保證網(wǎng)絡(luò)爬蟲(chóng)的獨(dú)立性,本文在數(shù)據(jù)獲取平臺(tái)的總體結(jié)構(gòu)上采用了分站式數(shù)據(jù)獲取方法。為了解決上述微博網(wǎng)站不提供API的難點(diǎn)問(wèn)題,本文提出了基于用戶關(guān)系的維吾爾文微博數(shù)據(jù)獲取方法。由于本文研究對(duì)象的三種類(lèi)型網(wǎng)站在網(wǎng)頁(yè)布局上有明顯的布局相似度特征,本文采用了網(wǎng)頁(yè)布局相似度的數(shù)據(jù)獲取方法。通過(guò)上述研究,本文實(shí)現(xiàn)了高效的面向維吾爾文社交網(wǎng)絡(luò)的輿情數(shù)據(jù)獲取平臺(tái)。通過(guò)本文的研究,從實(shí)驗(yàn)對(duì)象的10個(gè)網(wǎng)站最終得到了400000多條高質(zhì)量、高精確度數(shù)據(jù),并對(duì)跨語(yǔ)言輿情分析研究提供了維吾爾文社交網(wǎng)絡(luò)的輿情數(shù)據(jù)獲取技術(shù)和豐富的數(shù)據(jù)資源。
【關(guān)鍵詞】:跨語(yǔ)言 網(wǎng)絡(luò)輿情 網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)獲取 數(shù)據(jù)提取 用戶關(guān)系 社交網(wǎng)絡(luò)
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要2-4
- Abstract4-9
- 第一章 緒論9-16
- 1.1 課題來(lái)源9
- 1.2 課題背景及意義9-10
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀10-16
- 1.3.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)10-11
- 1.3.2 數(shù)據(jù)采集技術(shù)11-12
- 1.3.3 數(shù)據(jù)提取技術(shù)12
- 1.4 存在的問(wèn)題12-14
- 1.5 研究?jī)?nèi)容與主要?jiǎng)?chuàng)新點(diǎn)14-15
- 1.5.1 研究?jī)?nèi)容14-15
- 1.5.2 主要的創(chuàng)新點(diǎn)15
- 1.6 論文的組織結(jié)構(gòu)15-16
- 第二章 網(wǎng)絡(luò)輿情數(shù)據(jù)獲取平臺(tái)的建設(shè)16-34
- 2.1 網(wǎng)絡(luò)輿情數(shù)據(jù)來(lái)源的選擇16-18
- 2.1.1 微博16-17
- 2.1.2 論壇17-18
- 2.1.3 新聞網(wǎng)站18
- 2.2 數(shù)據(jù)來(lái)源站點(diǎn)的基本結(jié)構(gòu)分析18-23
- 2.2.1 微博網(wǎng)站18-20
- 2.2.2 論壇網(wǎng)站20-21
- 2.2.3 新聞網(wǎng)站21-23
- 2.3 輿情爬蟲(chóng)的設(shè)計(jì)23-31
- 2.3.1 輿情爬蟲(chóng)的總體結(jié)構(gòu)23-24
- 2.3.2 微博爬蟲(chóng)的設(shè)計(jì)24-29
- 2.3.3 論壇爬蟲(chóng)的設(shè)計(jì)29-30
- 2.3.4 新聞爬蟲(chóng)的設(shè)計(jì)30-31
- 2.4 輿情數(shù)據(jù)獲取平臺(tái)的介紹31-33
- 2.4.1 開(kāi)發(fā)環(huán)境31-32
- 2.4.2 總體設(shè)計(jì)32-33
- 2.5 本章小結(jié)33-34
- 第三章 數(shù)據(jù)獲取方案的實(shí)現(xiàn)34-52
- 3.1 數(shù)據(jù)獲取方案的總體設(shè)計(jì)34-35
- 3.2 微博數(shù)據(jù)獲取方案的實(shí)現(xiàn)35-40
- 3.2.1 基于用戶個(gè)性化的微博數(shù)據(jù)獲取方法35-36
- 3.2.2 微博網(wǎng)頁(yè)的布局結(jié)構(gòu)特點(diǎn)36-37
- 3.2.3 微博數(shù)據(jù)采集方案37-38
- 3.2.4 微博數(shù)據(jù)提取方案38-40
- 3.3 論壇數(shù)據(jù)獲取方案40-47
- 3.3.1 論壇網(wǎng)頁(yè)布局特點(diǎn)分析41-42
- 3.3.2 論壇數(shù)據(jù)采集方案的實(shí)現(xiàn)42-44
- 3.3.3 論壇數(shù)據(jù)提取44-47
- 3.4 新聞數(shù)據(jù)獲取方案的實(shí)現(xiàn)47-51
- 3.4.1 新聞網(wǎng)站頁(yè)面分析47-49
- 3.4.2 新聞網(wǎng)站的數(shù)據(jù)采集方案49-50
- 3.4.3 新聞數(shù)據(jù)的提取方案50-51
- 3.5 本章小結(jié)51-52
- 第四章 性能測(cè)試實(shí)驗(yàn)與數(shù)據(jù)分析52-57
- 4.1 數(shù)據(jù)獲取有效性實(shí)驗(yàn)52-53
- 4.1.1 測(cè)試環(huán)境52
- 4.1.2 數(shù)據(jù)獲取量分析52-53
- 4.2 數(shù)據(jù)提取精確度分析53-56
- 4.2.1 微博數(shù)據(jù)提取精確度分析53-55
- 4.2.2 論壇數(shù)據(jù)提取精確度分析55
- 4.2.3 新聞數(shù)據(jù)提取精確度分析55-56
- 4.3 本章小結(jié)56-57
- 第五章 總結(jié)與展望57-59
- 5.1 總結(jié)57-58
- 5.2 展望58-59
- 參考文獻(xiàn)59-62
- 在讀碩士研究生期間發(fā)表論文62-63
- 致謝63-64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 王全蘭;;網(wǎng)絡(luò)輿情信息采集及預(yù)警方法研究[J];管理工程師;2012年02期
2 高揚(yáng);;基于.NET平臺(tái)的三層架構(gòu)軟件框架的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年02期
3 周芳;王瑞;;基于平行系統(tǒng)的網(wǎng)絡(luò)輿情試驗(yàn)方法[J];指揮信息系統(tǒng)與技術(shù);2013年03期
4 顧軼靈;;基于多維語(yǔ)義的互聯(lián)網(wǎng)藥品信息提取方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年11期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳翰;突發(fā)事件網(wǎng)絡(luò)輿情數(shù)據(jù)采集與抽取技術(shù)研究[D];解放軍信息工程大學(xué);2012年
,本文編號(hào):919869
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/919869.html
最近更新
教材專(zhuān)著