天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本數(shù)據(jù)實(shí)時(shí)多維檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-08-29 10:46
  隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,全球大數(shù)據(jù)進(jìn)入高速發(fā)展時(shí)期,數(shù)據(jù)總量每年增長50%。其中以社交平臺(微信、微博等)為代表的文本數(shù)據(jù)占了絕大部分。對于包含大量信息的海量文本數(shù)據(jù),用常規(guī)文本檢索方法通常不能取得理想的效果。如何對海量文本數(shù)據(jù)有效檢索,以便進(jìn)一步深入挖掘數(shù)據(jù)潛在價(jià)值亟待解決。業(yè)界為此進(jìn)行了多方面的探索,其中微軟Concept Graph技術(shù)在此領(lǐng)域研究較深入且有別于傳統(tǒng)的文本數(shù)據(jù)解決思路。微軟概念圖旨在將文本格式實(shí)體映射到具有一些概率的語義概念類別中。本文結(jié)合現(xiàn)有數(shù)據(jù)爬取、文本處理等技術(shù),爬取電商扶貧實(shí)時(shí)文本數(shù)據(jù),與微軟Concept Graph技術(shù)相結(jié)合提出一種全新的抽取實(shí)時(shí)文本數(shù)據(jù)維度的新思路,并結(jié)合抽取維度信息構(gòu)建文本數(shù)據(jù)多維檢索系統(tǒng)。該方案從文本數(shù)據(jù)的獲取、維度抽取及多維檢索系統(tǒng)構(gòu)建兩方面進(jìn)行研究:1)設(shè)計(jì)文本數(shù)據(jù)源存儲(chǔ)格式規(guī)范,根據(jù)系統(tǒng)存儲(chǔ)規(guī)范及多維檢索系統(tǒng)需求設(shè)計(jì)數(shù)據(jù)采集模塊。研究微博、微信平臺的反爬措施,結(jié)合現(xiàn)有爬蟲技術(shù),將Redis內(nèi)存數(shù)據(jù)庫、Scrapy框架、云打碼平臺等技術(shù)相結(jié)合,細(xì)化爬取時(shí)間片,構(gòu)造用戶可自定義主題關(guān)鍵字的百萬級數(shù)據(jù)量高性能健壯爬蟲,可以實(shí)... 

【文章來源】:中南財(cái)經(jīng)政法大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

文本數(shù)據(jù)實(shí)時(shí)多維檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


Mongo數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)

文本數(shù)據(jù)實(shí)時(shí)多維檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


爬蟲基本流程

文本數(shù)據(jù)實(shí)時(shí)多維檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


Scrapy框架流程介紹第三節(jié)文檔主題生成模型技術(shù)

【參考文獻(xiàn)】:
期刊論文
[1]我國精準(zhǔn)扶貧的最優(yōu)模式與關(guān)鍵路徑分析[J]. 宋宸剛,叢雅靜.  調(diào)研世界. 2018(03)
[2]面向中文微博情感分析的多特征融合方法研究[J]. 宋沛玉,邢延.  電子世界. 2018(02)
[3]BEPC-Ⅱ運(yùn)行數(shù)據(jù)Web查詢應(yīng)用設(shè)計(jì)[J]. 喬予思,雷革.  核電子學(xué)與探測技術(shù). 2017(10)
[4]基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J]. 劉宇,鄭成煥.  軟件. 2017(07)
[5]更好推進(jìn)精準(zhǔn)扶貧精準(zhǔn)脫貧 確保如期實(shí)現(xiàn)脫貧攻堅(jiān)目標(biāo)[J].   實(shí)踐(黨的教育版). 2017(03)
[6]Redis在即時(shí)通訊系統(tǒng)中的應(yīng)用[J]. 李鵬鵬,鄭揚(yáng)飛,劉玉龍.  軟件. 2017(01)
[7]基于卡方距離改進(jìn)的WLAN室內(nèi)定位算法[J]. 陶崢,王洪玉.  計(jì)算機(jī)技術(shù)與發(fā)展. 2016(09)
[8]基于通信運(yùn)營商數(shù)據(jù)的大數(shù)據(jù)實(shí)時(shí)流處理系統(tǒng)[J]. 朱奕健,張正卿.  中國新通信. 2016(03)
[9]MongoDB在氣象傳感器數(shù)據(jù)處理中的應(yīng)用[J]. 白長清,劉敏.  軟件. 2015(11)
[10]基于redis的簡易應(yīng)用下載系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 武紅寬,申敏,馬怡偉.  信息通信. 2015(09)

博士論文
[1]云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D]. 代勁.重慶大學(xué) 2011

碩士論文
[1]呼叫中心CTI Pool的研究與設(shè)計(jì)[D]. 宮雪.內(nèi)蒙古大學(xué) 2018
[2]私有云中策略生成系統(tǒng)的研究與實(shí)現(xiàn)[D]. 閆祎穎.北京郵電大學(xué) 2018
[3]基于分布式的IT綜合監(jiān)控平臺的設(shè)計(jì)和實(shí)現(xiàn)[D]. 王強(qiáng).北京交通大學(xué) 2017
[4]基于Python開發(fā)預(yù)警機(jī)系統(tǒng)檢測設(shè)計(jì)與研究[D]. 孔德民.哈爾濱理工大學(xué) 2017
[5]基于雙重遺傳的k-means聚類算法在文本挖掘中的應(yīng)用[D]. 文靜.大連海事大學(xué) 2017
[6]基于神經(jīng)網(wǎng)絡(luò)的復(fù)述抽取和重排序研究[D]. 孫海鵬.哈爾濱工業(yè)大學(xué) 2015
[7]一號店網(wǎng)絡(luò)負(fù)載均衡系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 劉覽.東北大學(xué) 2015
[8]移動(dòng)應(yīng)用的web與native混合編程模式研究與實(shí)現(xiàn)[D]. 王閱蓁.電子科技大學(xué) 2015
[9]基于Django的日程協(xié)作系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 鄭成剛.大連理工大學(xué) 2014
[10]廣東電力企業(yè)人事管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王晟.吉林大學(xué) 2014



本文編號:3370508

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3370508.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶19ab6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com