天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Web爬蟲的課程推薦系統(tǒng)研究

發(fā)布時間:2017-08-05 01:25

  本文關(guān)鍵詞:基于Web爬蟲的課程推薦系統(tǒng)研究


  更多相關(guān)文章: Scrapy框架 中文分詞 關(guān)鍵詞抽取 新聞熱點提取 課程推薦系統(tǒng)


【摘要】:本文以《基于云平臺的網(wǎng)絡(luò)影視在線教育培訓(xùn)系統(tǒng)》研究項目為背景,探索社會熱點與網(wǎng)絡(luò)教學(xué)相融合的新模式,實現(xiàn)根據(jù)最新熱點推薦相關(guān)網(wǎng)絡(luò)課程的目標(biāo)。針對新聞內(nèi)容的獲取問題,本文重點對網(wǎng)絡(luò)爬蟲技術(shù)進行了分析和研究,設(shè)計并實現(xiàn)了基于Scrapy爬蟲框架的新聞?wù)军c抓取方案,達到快速抓取結(jié)構(gòu)化新聞數(shù)據(jù)的目的。針對海量新聞的持久化存儲問題,本文應(yīng)用基于Hash的Mongo DB分片技術(shù),實現(xiàn)多臺服務(wù)器間的負載均衡,有效緩解了數(shù)據(jù)庫服務(wù)器的存儲壓力。對于社會關(guān)注熱點的提取問題,應(yīng)用基于TF-IDF算法的關(guān)鍵詞抽取方法實現(xiàn)對新聞特征的提取,并綜合新聞自身權(quán)重及關(guān)鍵詞TFIDF值,實現(xiàn)熱點獲取并保證其準(zhǔn)確性及有效性。針對相關(guān)課程推薦的問題,利用Solr搜索引擎技術(shù),根據(jù)熱點檢索教學(xué)平臺中的相關(guān)主題課程并做推薦,實現(xiàn)熱點與網(wǎng)絡(luò)教育的有機結(jié)合,最終達到調(diào)動學(xué)生積極性并提高教學(xué)效果的目的。論文首先詳細闡述了網(wǎng)絡(luò)爬蟲、No SQL數(shù)據(jù)庫、文本分析等相關(guān)技術(shù)。其次,根據(jù)課程推薦系統(tǒng)的項目需求,對Scrapy爬蟲框架進行了深入研究,對Redis和Mongo DB數(shù)據(jù)庫進行了重點分析,設(shè)計并實現(xiàn)了針對新聞門戶網(wǎng)站的定向爬蟲。然后,對熱點提取方法及Solr搜索引擎技術(shù)展開了探索,完成了對新聞熱點的獲取,并實現(xiàn)熱點相關(guān)課程的推薦。最后,對系統(tǒng)做了整體測試及結(jié)果分析,并對論文中的各項工作進行了總結(jié)。
【關(guān)鍵詞】:Scrapy框架 中文分詞 關(guān)鍵詞抽取 新聞熱點提取 課程推薦系統(tǒng)
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-13
  • 1.1 本論文研究的目的和意義9
  • 1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢9-11
  • 1.3 研究目標(biāo)與主要研究內(nèi)容11-12
  • 1.4 論文組織12-13
  • 第二章 系統(tǒng)設(shè)計與相關(guān)技術(shù)概述13-24
  • 2.1 基于WEB爬蟲的課程推薦系統(tǒng)模塊設(shè)計13-14
  • 2.2 網(wǎng)絡(luò)爬蟲14-19
  • 2.2.1 通用爬蟲框架研究15-16
  • 2.2.2 網(wǎng)絡(luò)爬蟲分類16-17
  • 2.2.3 開源爬蟲框架比較17-19
  • 2.3 NOSQL技術(shù)19-20
  • 2.4 文本分析20-22
  • 2.4.1 文本分詞20-21
  • 2.4.2 內(nèi)容特征選取21-22
  • 2.5 全文搜索引擎技術(shù)22-24
  • 第三章 基于SCRAPY的新聞爬蟲實現(xiàn)24-44
  • 3.1 SCRAPY爬蟲框架24-28
  • 3.1.1 SCRAPY框架組成24-26
  • 3.1.2 SCRAPY數(shù)據(jù)處理流程解析26-27
  • 3.1.3 WEB頁面信息提取27-28
  • 3.2 分布式存儲技術(shù)28-32
  • 3.2.1 REDIS內(nèi)存數(shù)據(jù)庫介紹28-29
  • 3.2.2 MONGODB文檔數(shù)據(jù)庫研究29-31
  • 3.2.3 爬蟲數(shù)據(jù)分布式存儲31-32
  • 3.3 新聞爬蟲實現(xiàn)32-43
  • 3.3.1 MONGODB分布式部署33-36
  • 3.3.2 SCRAPY定制36-38
  • 3.3.3 項目管道定制38-39
  • 3.3.4 新聞內(nèi)容抓取39-43
  • 3.4 本章小結(jié)43-44
  • 第四章 新聞熱點提取與課程推薦的實現(xiàn)44-54
  • 4.1 中文分詞算法研究44-46
  • 4.1.1 基于TRIE樹結(jié)構(gòu)的分詞算法44-45
  • 4.1.2 HMM模型與VITERBI算法45-46
  • 4.2 關(guān)鍵詞抽取算法研究46-49
  • 4.2.1 基于統(tǒng)計的TF-IDF算法46-48
  • 4.2.2 TEXTRANK關(guān)鍵字生成算法48-49
  • 4.3 新聞熱點提取49-52
  • 4.3.1 結(jié)合學(xué)科詞典的關(guān)鍵詞抽取49-51
  • 4.3.2 融合新聞參數(shù)信息的熱點發(fā)現(xiàn)51-52
  • 4.4 基于SOLR的課程推薦52-53
  • 4.5 本章小結(jié)53-54
  • 第五章 系統(tǒng)測試54-59
  • 5.1 系統(tǒng)測試方法54
  • 5.2 實際系統(tǒng)運行結(jié)果分析54-58
  • 5.2.1 分布式網(wǎng)絡(luò)爬蟲結(jié)果分析54-55
  • 5.2.2 關(guān)鍵詞抽取測試55-57
  • 5.2.3 課程推薦結(jié)果分析57-58
  • 5.3 系統(tǒng)測試結(jié)論58-59
  • 結(jié)論59-60
  • 參考文獻60-63
  • 攻讀學(xué)位期間發(fā)表論文與研究成果清單63-64
  • 致謝64

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 米可菲;張勇;邢春曉;蔚欣;;面向大數(shù)據(jù)的開源推薦系統(tǒng)分析[J];計算機與數(shù)字工程;2013年10期

2 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實現(xiàn)[J];計算機工程與設(shè)計;2006年17期

3 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學(xué)推薦系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2007年05期

4 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導(dǎo)刊;2007年23期

5 葉群來;;營銷與網(wǎng)絡(luò)推薦系統(tǒng)[J];電子商務(wù);2007年10期

6 李媚;;個性化網(wǎng)絡(luò)學(xué)習(xí)資源推薦系統(tǒng)研究[J];福建電腦;2008年12期

7 潘冉;姜麗紅;;基于經(jīng)濟學(xué)模型的推薦系統(tǒng)的研究[J];計算機應(yīng)用與軟件;2008年03期

8 劉魯;任曉麗;;推薦系統(tǒng)研究進展及展望[J];信息系統(tǒng)學(xué)報;2008年01期

9 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強學(xué)習(xí)的旅行計劃推薦系統(tǒng)[J];計算機工程;2010年21期

10 曹畋;;智能推薦系統(tǒng)在知識瀏覽領(lǐng)域的應(yīng)用[J];硅谷;2011年21期

中國重要會議論文全文數(shù)據(jù)庫 前8條

1 張燕;李燕萍;;基于內(nèi)容分析和點擊率記錄的混合音樂推薦系統(tǒng)[A];2009年通信理論與信號處理學(xué)術(shù)年會論文集[C];2009年

2 趙欣;寇綱;鄔文帥;盧艷群;;基于時間密集性的推薦系統(tǒng)攻擊檢測[A];第六屆(2011)中國管理學(xué)年會論文摘要集[C];2011年

3 張玉連;張波;張敏;;改進的個性化信息推薦系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年全國理論計算機科學(xué)學(xué)術(shù)年會論文集[C];2005年

4 王君;許潔萍;;層次音樂推薦系統(tǒng)的研究[A];第18屆全國多媒體學(xué)術(shù)會議(NCMT2009)、第5屆全國人機交互學(xué)術(shù)會議(CHCI2009)、第5屆全國普適計算學(xué)術(shù)會議(PCC2009)論文集[C];2009年

5 潘宇;林鴻飛;楊志豪;;基于用戶聚類的電子商務(wù)推薦系統(tǒng)[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

6 尤忠彬;陳越;張英;朱揚勇;;基于Web服務(wù)的技術(shù)轉(zhuǎn)移平臺推薦系統(tǒng)研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

7 王國霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應(yīng)用[A];第25屆中國控制與決策會議論文集[C];2013年

8 王雪;董愛華;吳怡之;;基于RFID技術(shù)的智能服裝推薦系統(tǒng)設(shè)計[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 ;大數(shù)據(jù)如何“落地”[N];中國新聞出版報;2014年

2 本報記者 鄒大斌;大數(shù)據(jù):電商新武器[N];計算機世界;2012年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 周魏;推薦系統(tǒng)中基于目標(biāo)項目分析的托攻擊檢測研究[D];重慶大學(xué);2015年

2 王宏宇;商務(wù)推薦系統(tǒng)的設(shè)計研究[D];中國科學(xué)技術(shù)大學(xué);2007年

3 楊東輝;基于情感相似度的社會化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2014年

4 曹渝昆;基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學(xué);2006年

5 王立才;上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年

6 劉龍;一個能實現(xiàn)個性化實時路徑推薦服務(wù)的推薦系統(tǒng)框架[D];中國科學(xué)技術(shù)大學(xué);2014年

7 李濤;推薦系統(tǒng)中若干關(guān)鍵問題研究[D];南京航空航天大學(xué);2009年

8 劉士琛;面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2014年

9 李方方;非獨立同分布推薦系統(tǒng)研究[D];北京理工大學(xué);2014年

10 李曉建;基于語義的個性化資源推薦系統(tǒng)中關(guān)鍵技術(shù)研究[D];武漢大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 朱孔真;基于云計算的電子商務(wù)智能推薦系統(tǒng)研究[D];武漢理工大學(xué);2014年

2 郭敬澤;基于賦權(quán)評分和Dpark的分布式推薦系統(tǒng)研究與實現(xiàn)[D];天津理工大學(xué);2015年

3 周俊宇;信息推薦系統(tǒng)的研究與設(shè)計[D];江南大學(xué);2015年

4 李煒;基于電子商務(wù)平臺的保險推薦系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2013年

5 車豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學(xué);2015年

6 秦大路;基于因式分解機模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學(xué);2015年

7 徐霞婷;動態(tài)路網(wǎng)監(jiān)控與導(dǎo)航推薦系統(tǒng)的設(shè)計與實現(xiàn)[D];蘇州大學(xué);2015年

8 黃學(xué)峰;基于Hadoop的電影推薦系統(tǒng)研究與實現(xiàn)[D];南京師范大學(xué);2015年

9 路小瑞;基于Hadoop平臺的職位推薦系統(tǒng)的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2015年

10 李愛寶;基于組合消費行為分析的團購?fù)扑]系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

,

本文編號:622633

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/622633.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶66e03***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com