文本數(shù)據實時多維檢索系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2021-08-29 10:46
隨著網絡和信息技術的不斷普及,全球大數(shù)據進入高速發(fā)展時期,數(shù)據總量每年增長50%。其中以社交平臺(微信、微博等)為代表的文本數(shù)據占了絕大部分。對于包含大量信息的海量文本數(shù)據,用常規(guī)文本檢索方法通常不能取得理想的效果。如何對海量文本數(shù)據有效檢索,以便進一步深入挖掘數(shù)據潛在價值亟待解決。業(yè)界為此進行了多方面的探索,其中微軟Concept Graph技術在此領域研究較深入且有別于傳統(tǒng)的文本數(shù)據解決思路。微軟概念圖旨在將文本格式實體映射到具有一些概率的語義概念類別中。本文結合現(xiàn)有數(shù)據爬取、文本處理等技術,爬取電商扶貧實時文本數(shù)據,與微軟Concept Graph技術相結合提出一種全新的抽取實時文本數(shù)據維度的新思路,并結合抽取維度信息構建文本數(shù)據多維檢索系統(tǒng)。該方案從文本數(shù)據的獲取、維度抽取及多維檢索系統(tǒng)構建兩方面進行研究:1)設計文本數(shù)據源存儲格式規(guī)范,根據系統(tǒng)存儲規(guī)范及多維檢索系統(tǒng)需求設計數(shù)據采集模塊。研究微博、微信平臺的反爬措施,結合現(xiàn)有爬蟲技術,將Redis內存數(shù)據庫、Scrapy框架、云打碼平臺等技術相結合,細化爬取時間片,構造用戶可自定義主題關鍵字的百萬級數(shù)據量高性能健壯爬蟲,可以實...
【文章來源】:中南財經政法大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
Mongo數(shù)據庫存儲結構
爬蟲基本流程
Scrapy框架流程介紹第三節(jié)文檔主題生成模型技術
【參考文獻】:
期刊論文
[1]我國精準扶貧的最優(yōu)模式與關鍵路徑分析[J]. 宋宸剛,叢雅靜. 調研世界. 2018(03)
[2]面向中文微博情感分析的多特征融合方法研究[J]. 宋沛玉,邢延. 電子世界. 2018(02)
[3]BEPC-Ⅱ運行數(shù)據Web查詢應用設計[J]. 喬予思,雷革. 核電子學與探測技術. 2017(10)
[4]基于Scrapy的深層網絡爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[5]更好推進精準扶貧精準脫貧 確保如期實現(xiàn)脫貧攻堅目標[J]. 實踐(黨的教育版). 2017(03)
[6]Redis在即時通訊系統(tǒng)中的應用[J]. 李鵬鵬,鄭揚飛,劉玉龍. 軟件. 2017(01)
[7]基于卡方距離改進的WLAN室內定位算法[J]. 陶崢,王洪玉. 計算機技術與發(fā)展. 2016(09)
[8]基于通信運營商數(shù)據的大數(shù)據實時流處理系統(tǒng)[J]. 朱奕健,張正卿. 中國新通信. 2016(03)
[9]MongoDB在氣象傳感器數(shù)據處理中的應用[J]. 白長清,劉敏. 軟件. 2015(11)
[10]基于redis的簡易應用下載系統(tǒng)的設計與實現(xiàn)[J]. 武紅寬,申敏,馬怡偉. 信息通信. 2015(09)
博士論文
[1]云模型在文本挖掘應用中的關鍵問題研究[D]. 代勁.重慶大學 2011
碩士論文
[1]呼叫中心CTI Pool的研究與設計[D]. 宮雪.內蒙古大學 2018
[2]私有云中策略生成系統(tǒng)的研究與實現(xiàn)[D]. 閆祎穎.北京郵電大學 2018
[3]基于分布式的IT綜合監(jiān)控平臺的設計和實現(xiàn)[D]. 王強.北京交通大學 2017
[4]基于Python開發(fā)預警機系統(tǒng)檢測設計與研究[D]. 孔德民.哈爾濱理工大學 2017
[5]基于雙重遺傳的k-means聚類算法在文本挖掘中的應用[D]. 文靜.大連海事大學 2017
[6]基于神經網絡的復述抽取和重排序研究[D]. 孫海鵬.哈爾濱工業(yè)大學 2015
[7]一號店網絡負載均衡系統(tǒng)的設計與實現(xiàn)[D]. 劉覽.東北大學 2015
[8]移動應用的web與native混合編程模式研究與實現(xiàn)[D]. 王閱蓁.電子科技大學 2015
[9]基于Django的日程協(xié)作系統(tǒng)的設計與實現(xiàn)[D]. 鄭成剛.大連理工大學 2014
[10]廣東電力企業(yè)人事管理信息系統(tǒng)的設計與實現(xiàn)[D]. 王晟.吉林大學 2014
本文編號:3370508
【文章來源】:中南財經政法大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
Mongo數(shù)據庫存儲結構
爬蟲基本流程
Scrapy框架流程介紹第三節(jié)文檔主題生成模型技術
【參考文獻】:
期刊論文
[1]我國精準扶貧的最優(yōu)模式與關鍵路徑分析[J]. 宋宸剛,叢雅靜. 調研世界. 2018(03)
[2]面向中文微博情感分析的多特征融合方法研究[J]. 宋沛玉,邢延. 電子世界. 2018(02)
[3]BEPC-Ⅱ運行數(shù)據Web查詢應用設計[J]. 喬予思,雷革. 核電子學與探測技術. 2017(10)
[4]基于Scrapy的深層網絡爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[5]更好推進精準扶貧精準脫貧 確保如期實現(xiàn)脫貧攻堅目標[J]. 實踐(黨的教育版). 2017(03)
[6]Redis在即時通訊系統(tǒng)中的應用[J]. 李鵬鵬,鄭揚飛,劉玉龍. 軟件. 2017(01)
[7]基于卡方距離改進的WLAN室內定位算法[J]. 陶崢,王洪玉. 計算機技術與發(fā)展. 2016(09)
[8]基于通信運營商數(shù)據的大數(shù)據實時流處理系統(tǒng)[J]. 朱奕健,張正卿. 中國新通信. 2016(03)
[9]MongoDB在氣象傳感器數(shù)據處理中的應用[J]. 白長清,劉敏. 軟件. 2015(11)
[10]基于redis的簡易應用下載系統(tǒng)的設計與實現(xiàn)[J]. 武紅寬,申敏,馬怡偉. 信息通信. 2015(09)
博士論文
[1]云模型在文本挖掘應用中的關鍵問題研究[D]. 代勁.重慶大學 2011
碩士論文
[1]呼叫中心CTI Pool的研究與設計[D]. 宮雪.內蒙古大學 2018
[2]私有云中策略生成系統(tǒng)的研究與實現(xiàn)[D]. 閆祎穎.北京郵電大學 2018
[3]基于分布式的IT綜合監(jiān)控平臺的設計和實現(xiàn)[D]. 王強.北京交通大學 2017
[4]基于Python開發(fā)預警機系統(tǒng)檢測設計與研究[D]. 孔德民.哈爾濱理工大學 2017
[5]基于雙重遺傳的k-means聚類算法在文本挖掘中的應用[D]. 文靜.大連海事大學 2017
[6]基于神經網絡的復述抽取和重排序研究[D]. 孫海鵬.哈爾濱工業(yè)大學 2015
[7]一號店網絡負載均衡系統(tǒng)的設計與實現(xiàn)[D]. 劉覽.東北大學 2015
[8]移動應用的web與native混合編程模式研究與實現(xiàn)[D]. 王閱蓁.電子科技大學 2015
[9]基于Django的日程協(xié)作系統(tǒng)的設計與實現(xiàn)[D]. 鄭成剛.大連理工大學 2014
[10]廣東電力企業(yè)人事管理信息系統(tǒng)的設計與實現(xiàn)[D]. 王晟.吉林大學 2014
本文編號:3370508
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3370508.html
最近更新
教材專著