天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

跨語言社會輿情分析的數(shù)據(jù)獲取技術研究

發(fā)布時間:2017-09-25 22:16

  本文關鍵詞:跨語言社會輿情分析的數(shù)據(jù)獲取技術研究


  更多相關文章: 跨語言 網(wǎng)絡輿情 網(wǎng)絡爬蟲 數(shù)據(jù)獲取 數(shù)據(jù)提取 用戶關系 社交網(wǎng)絡


【摘要】:大規(guī)模的互聯(lián)網(wǎng)用戶使得網(wǎng)絡輿情成為社會輿情的重要組成部分。互聯(lián)網(wǎng)上的大部分群體性數(shù)據(jù)資源集中在微博、論壇、新聞網(wǎng)站等社交網(wǎng)絡和QQ、微信等及時通訊工具上?缯Z言社會輿情分析是我國智能信息處理的一個研究熱點,中國少數(shù)民族地區(qū)及周邊國家的需求,并且社會輿情傳播的跨語言特性,迫切需要研究跨語言社會輿情分析基礎理論及關鍵技術。維吾爾語是我國主要少數(shù)民族語言之一,為了構建一個好的跨語言輿情分析系統(tǒng),針對維吾爾文社交網(wǎng)絡的輿情分析研究顯得尤為重要。高效和正確地獲取網(wǎng)絡上的輿情數(shù)據(jù)是網(wǎng)絡輿情分析中最重要的基礎工作。本文從輿情數(shù)據(jù)來源的選擇、針對性網(wǎng)絡爬蟲的設計、輿情數(shù)據(jù)采集方案的設計和輿情數(shù)據(jù)提取方案的設計等四個方面進行研究,最后成功的設計與實現(xiàn)了面向維吾爾文社交網(wǎng)絡的輿情數(shù)據(jù)獲取平臺。目前,維吾爾文社交網(wǎng)絡的輿情數(shù)據(jù)獲取研究處于初步階段,該研究的最大的難點之一是維吾爾文微博開發(fā)商不提供開放API,此情況增加了對于維吾爾文微博的輿情數(shù)據(jù)獲取的難點;另一個難點是維吾爾文網(wǎng)站的編碼方式和網(wǎng)站結構等方面區(qū)別于中文或英文網(wǎng)站,所以目前流行的網(wǎng)絡爬蟲不適合獲取維吾爾文社交網(wǎng)絡的數(shù)據(jù)。本文以維吾爾文微博、論壇和新聞網(wǎng)站中的最典型的10個網(wǎng)站選擇為輿情數(shù)據(jù)來源的實驗對象;由于不同網(wǎng)站有不同網(wǎng)站結構的構特,并為了保證最終數(shù)據(jù)的高精確性和完整性,本文在網(wǎng)絡爬蟲方面采用了基于聚焦爬蟲思路的針對性網(wǎng)絡爬蟲方法,即對于每一個網(wǎng)站分別設計專用爬蟲;達到獲取大量源數(shù)據(jù)的需求,需要獲取歷史數(shù)據(jù),為此采用了深度優(yōu)先搜索方法和廣度優(yōu)先搜索方法;在數(shù)據(jù)采集方面,為了準確的判斷數(shù)據(jù)更新情況,采用了增量式數(shù)據(jù)采集方法,為了得到特定網(wǎng)站中的特定目標數(shù)據(jù),采用了基于用戶個性化的數(shù)據(jù)采集方法;由于維吾爾文網(wǎng)站的編碼方式和頁面布局的特點,在數(shù)據(jù)提取方面采用了手工法;為了提高數(shù)據(jù)獲取的速度并保證網(wǎng)絡爬蟲的獨立性,本文在數(shù)據(jù)獲取平臺的總體結構上采用了分站式數(shù)據(jù)獲取方法。為了解決上述微博網(wǎng)站不提供API的難點問題,本文提出了基于用戶關系的維吾爾文微博數(shù)據(jù)獲取方法。由于本文研究對象的三種類型網(wǎng)站在網(wǎng)頁布局上有明顯的布局相似度特征,本文采用了網(wǎng)頁布局相似度的數(shù)據(jù)獲取方法。通過上述研究,本文實現(xiàn)了高效的面向維吾爾文社交網(wǎng)絡的輿情數(shù)據(jù)獲取平臺。通過本文的研究,從實驗對象的10個網(wǎng)站最終得到了400000多條高質量、高精確度數(shù)據(jù),并對跨語言輿情分析研究提供了維吾爾文社交網(wǎng)絡的輿情數(shù)據(jù)獲取技術和豐富的數(shù)據(jù)資源。
【關鍵詞】:跨語言 網(wǎng)絡輿情 網(wǎng)絡爬蟲 數(shù)據(jù)獲取 數(shù)據(jù)提取 用戶關系 社交網(wǎng)絡
【學位授予單位】:新疆大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
  • 摘要2-4
  • Abstract4-9
  • 第一章 緒論9-16
  • 1.1 課題來源9
  • 1.2 課題背景及意義9-10
  • 1.3 國內外研究現(xiàn)狀10-16
  • 1.3.1 網(wǎng)絡爬蟲技術10-11
  • 1.3.2 數(shù)據(jù)采集技術11-12
  • 1.3.3 數(shù)據(jù)提取技術12
  • 1.4 存在的問題12-14
  • 1.5 研究內容與主要創(chuàng)新點14-15
  • 1.5.1 研究內容14-15
  • 1.5.2 主要的創(chuàng)新點15
  • 1.6 論文的組織結構15-16
  • 第二章 網(wǎng)絡輿情數(shù)據(jù)獲取平臺的建設16-34
  • 2.1 網(wǎng)絡輿情數(shù)據(jù)來源的選擇16-18
  • 2.1.1 微博16-17
  • 2.1.2 論壇17-18
  • 2.1.3 新聞網(wǎng)站18
  • 2.2 數(shù)據(jù)來源站點的基本結構分析18-23
  • 2.2.1 微博網(wǎng)站18-20
  • 2.2.2 論壇網(wǎng)站20-21
  • 2.2.3 新聞網(wǎng)站21-23
  • 2.3 輿情爬蟲的設計23-31
  • 2.3.1 輿情爬蟲的總體結構23-24
  • 2.3.2 微博爬蟲的設計24-29
  • 2.3.3 論壇爬蟲的設計29-30
  • 2.3.4 新聞爬蟲的設計30-31
  • 2.4 輿情數(shù)據(jù)獲取平臺的介紹31-33
  • 2.4.1 開發(fā)環(huán)境31-32
  • 2.4.2 總體設計32-33
  • 2.5 本章小結33-34
  • 第三章 數(shù)據(jù)獲取方案的實現(xiàn)34-52
  • 3.1 數(shù)據(jù)獲取方案的總體設計34-35
  • 3.2 微博數(shù)據(jù)獲取方案的實現(xiàn)35-40
  • 3.2.1 基于用戶個性化的微博數(shù)據(jù)獲取方法35-36
  • 3.2.2 微博網(wǎng)頁的布局結構特點36-37
  • 3.2.3 微博數(shù)據(jù)采集方案37-38
  • 3.2.4 微博數(shù)據(jù)提取方案38-40
  • 3.3 論壇數(shù)據(jù)獲取方案40-47
  • 3.3.1 論壇網(wǎng)頁布局特點分析41-42
  • 3.3.2 論壇數(shù)據(jù)采集方案的實現(xiàn)42-44
  • 3.3.3 論壇數(shù)據(jù)提取44-47
  • 3.4 新聞數(shù)據(jù)獲取方案的實現(xiàn)47-51
  • 3.4.1 新聞網(wǎng)站頁面分析47-49
  • 3.4.2 新聞網(wǎng)站的數(shù)據(jù)采集方案49-50
  • 3.4.3 新聞數(shù)據(jù)的提取方案50-51
  • 3.5 本章小結51-52
  • 第四章 性能測試實驗與數(shù)據(jù)分析52-57
  • 4.1 數(shù)據(jù)獲取有效性實驗52-53
  • 4.1.1 測試環(huán)境52
  • 4.1.2 數(shù)據(jù)獲取量分析52-53
  • 4.2 數(shù)據(jù)提取精確度分析53-56
  • 4.2.1 微博數(shù)據(jù)提取精確度分析53-55
  • 4.2.2 論壇數(shù)據(jù)提取精確度分析55
  • 4.2.3 新聞數(shù)據(jù)提取精確度分析55-56
  • 4.3 本章小結56-57
  • 第五章 總結與展望57-59
  • 5.1 總結57-58
  • 5.2 展望58-59
  • 參考文獻59-62
  • 在讀碩士研究生期間發(fā)表論文62-63
  • 致謝63-64

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 王全蘭;;網(wǎng)絡輿情信息采集及預警方法研究[J];管理工程師;2012年02期

2 高揚;;基于.NET平臺的三層架構軟件框架的設計與實現(xiàn)[J];計算機技術與發(fā)展;2011年02期

3 周芳;王瑞;;基于平行系統(tǒng)的網(wǎng)絡輿情試驗方法[J];指揮信息系統(tǒng)與技術;2013年03期

4 顧軼靈;;基于多維語義的互聯(lián)網(wǎng)藥品信息提取方法[J];計算機系統(tǒng)應用;2011年11期

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 陳翰;突發(fā)事件網(wǎng)絡輿情數(shù)據(jù)采集與抽取技術研究[D];解放軍信息工程大學;2012年

,

本文編號:919869

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/919869.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶d8a90***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
免费观看一区二区三区黄片| 久久精品国产亚洲av麻豆| 欧美尤物在线观看西比尔| 欧美亚洲美女资源国产| 最近的中文字幕一区二区| 日韩黄片大全免费在线看| 偷拍美女洗澡免费视频| 欧美日韩国产综合特黄| 国产一区二区三区色噜噜| 暴力性生活在线免费视频| 中文字幕欧美视频二区| 99久久无色码中文字幕免费| 国产午夜精品久久福利| 狠狠做深爱婷婷久久综合| 色婷婷在线视频免费播放| 欧美一区二区三区播放| 国产精品免费无遮挡不卡视频 | 国产在线小视频你懂的| 国产又粗又猛又爽色噜噜| 狠狠干狠狠操在线播放| 亚洲国产精品久久琪琪| 91超频在线视频中文字幕| 性感少妇无套内射在线视频| 99久热只有精品视频免费看| 国产成人综合亚洲欧美日韩| 亚洲午夜福利视频在线| 国产色偷丝袜麻豆亚洲| 国产又粗又长又大高潮视频| 国产成人av在线免播放观看av| 美日韩一区二区精品系列| 99久久成人精品国产免费| 国产精品丝袜美腿一区二区| 日韩aa一区二区三区| 国产毛片不卡视频在线| 亚洲国产精品一区二区| 欧美熟妇一区二区在线| 午夜日韩在线观看视频| 国产毛片av一区二区三区小说| 亚洲视频在线观看免费中文字幕| 国产又色又爽又黄又免费| 91香蕉视频精品在线看|