基于Web爬蟲的課程推薦系統(tǒng)研究
本文關鍵詞:基于Web爬蟲的課程推薦系統(tǒng)研究
更多相關文章: Scrapy框架 中文分詞 關鍵詞抽取 新聞熱點提取 課程推薦系統(tǒng)
【摘要】:本文以《基于云平臺的網絡影視在線教育培訓系統(tǒng)》研究項目為背景,探索社會熱點與網絡教學相融合的新模式,實現(xiàn)根據最新熱點推薦相關網絡課程的目標。針對新聞內容的獲取問題,本文重點對網絡爬蟲技術進行了分析和研究,設計并實現(xiàn)了基于Scrapy爬蟲框架的新聞站點抓取方案,達到快速抓取結構化新聞數(shù)據的目的。針對海量新聞的持久化存儲問題,本文應用基于Hash的Mongo DB分片技術,實現(xiàn)多臺服務器間的負載均衡,有效緩解了數(shù)據庫服務器的存儲壓力。對于社會關注熱點的提取問題,應用基于TF-IDF算法的關鍵詞抽取方法實現(xiàn)對新聞特征的提取,并綜合新聞自身權重及關鍵詞TFIDF值,實現(xiàn)熱點獲取并保證其準確性及有效性。針對相關課程推薦的問題,利用Solr搜索引擎技術,根據熱點檢索教學平臺中的相關主題課程并做推薦,實現(xiàn)熱點與網絡教育的有機結合,最終達到調動學生積極性并提高教學效果的目的。論文首先詳細闡述了網絡爬蟲、No SQL數(shù)據庫、文本分析等相關技術。其次,根據課程推薦系統(tǒng)的項目需求,對Scrapy爬蟲框架進行了深入研究,對Redis和Mongo DB數(shù)據庫進行了重點分析,設計并實現(xiàn)了針對新聞門戶網站的定向爬蟲。然后,對熱點提取方法及Solr搜索引擎技術展開了探索,完成了對新聞熱點的獲取,并實現(xiàn)熱點相關課程的推薦。最后,對系統(tǒng)做了整體測試及結果分析,并對論文中的各項工作進行了總結。
【關鍵詞】:Scrapy框架 中文分詞 關鍵詞抽取 新聞熱點提取 課程推薦系統(tǒng)
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-13
- 1.1 本論文研究的目的和意義9
- 1.2 國內外研究現(xiàn)狀及發(fā)展趨勢9-11
- 1.3 研究目標與主要研究內容11-12
- 1.4 論文組織12-13
- 第二章 系統(tǒng)設計與相關技術概述13-24
- 2.1 基于WEB爬蟲的課程推薦系統(tǒng)模塊設計13-14
- 2.2 網絡爬蟲14-19
- 2.2.1 通用爬蟲框架研究15-16
- 2.2.2 網絡爬蟲分類16-17
- 2.2.3 開源爬蟲框架比較17-19
- 2.3 NOSQL技術19-20
- 2.4 文本分析20-22
- 2.4.1 文本分詞20-21
- 2.4.2 內容特征選取21-22
- 2.5 全文搜索引擎技術22-24
- 第三章 基于SCRAPY的新聞爬蟲實現(xiàn)24-44
- 3.1 SCRAPY爬蟲框架24-28
- 3.1.1 SCRAPY框架組成24-26
- 3.1.2 SCRAPY數(shù)據處理流程解析26-27
- 3.1.3 WEB頁面信息提取27-28
- 3.2 分布式存儲技術28-32
- 3.2.1 REDIS內存數(shù)據庫介紹28-29
- 3.2.2 MONGODB文檔數(shù)據庫研究29-31
- 3.2.3 爬蟲數(shù)據分布式存儲31-32
- 3.3 新聞爬蟲實現(xiàn)32-43
- 3.3.1 MONGODB分布式部署33-36
- 3.3.2 SCRAPY定制36-38
- 3.3.3 項目管道定制38-39
- 3.3.4 新聞內容抓取39-43
- 3.4 本章小結43-44
- 第四章 新聞熱點提取與課程推薦的實現(xiàn)44-54
- 4.1 中文分詞算法研究44-46
- 4.1.1 基于TRIE樹結構的分詞算法44-45
- 4.1.2 HMM模型與VITERBI算法45-46
- 4.2 關鍵詞抽取算法研究46-49
- 4.2.1 基于統(tǒng)計的TF-IDF算法46-48
- 4.2.2 TEXTRANK關鍵字生成算法48-49
- 4.3 新聞熱點提取49-52
- 4.3.1 結合學科詞典的關鍵詞抽取49-51
- 4.3.2 融合新聞參數(shù)信息的熱點發(fā)現(xiàn)51-52
- 4.4 基于SOLR的課程推薦52-53
- 4.5 本章小結53-54
- 第五章 系統(tǒng)測試54-59
- 5.1 系統(tǒng)測試方法54
- 5.2 實際系統(tǒng)運行結果分析54-58
- 5.2.1 分布式網絡爬蟲結果分析54-55
- 5.2.2 關鍵詞抽取測試55-57
- 5.2.3 課程推薦結果分析57-58
- 5.3 系統(tǒng)測試結論58-59
- 結論59-60
- 參考文獻60-63
- 攻讀學位期間發(fā)表論文與研究成果清單63-64
- 致謝64
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 米可菲;張勇;邢春曉;蔚欣;;面向大數(shù)據的開源推薦系統(tǒng)分析[J];計算機與數(shù)字工程;2013年10期
2 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實現(xiàn)[J];計算機工程與設計;2006年17期
3 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學推薦系統(tǒng)的設計與實現(xiàn)[J];計算機應用研究;2007年05期
4 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導刊;2007年23期
5 葉群來;;營銷與網絡推薦系統(tǒng)[J];電子商務;2007年10期
6 李媚;;個性化網絡學習資源推薦系統(tǒng)研究[J];福建電腦;2008年12期
7 潘冉;姜麗紅;;基于經濟學模型的推薦系統(tǒng)的研究[J];計算機應用與軟件;2008年03期
8 劉魯;任曉麗;;推薦系統(tǒng)研究進展及展望[J];信息系統(tǒng)學報;2008年01期
9 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強學習的旅行計劃推薦系統(tǒng)[J];計算機工程;2010年21期
10 曹畋;;智能推薦系統(tǒng)在知識瀏覽領域的應用[J];硅谷;2011年21期
中國重要會議論文全文數(shù)據庫 前8條
1 張燕;李燕萍;;基于內容分析和點擊率記錄的混合音樂推薦系統(tǒng)[A];2009年通信理論與信號處理學術年會論文集[C];2009年
2 趙欣;寇綱;鄔文帥;盧艷群;;基于時間密集性的推薦系統(tǒng)攻擊檢測[A];第六屆(2011)中國管理學年會論文摘要集[C];2011年
3 張玉連;張波;張敏;;改進的個性化信息推薦系統(tǒng)的設計與實現(xiàn)[A];2005年全國理論計算機科學學術年會論文集[C];2005年
4 王君;許潔萍;;層次音樂推薦系統(tǒng)的研究[A];第18屆全國多媒體學術會議(NCMT2009)、第5屆全國人機交互學術會議(CHCI2009)、第5屆全國普適計算學術會議(PCC2009)論文集[C];2009年
5 潘宇;林鴻飛;楊志豪;;基于用戶聚類的電子商務推薦系統(tǒng)[A];第三屆學生計算語言學研討會論文集[C];2006年
6 尤忠彬;陳越;張英;朱揚勇;;基于Web服務的技術轉移平臺推薦系統(tǒng)研究[A];第二十二屆中國數(shù)據庫學術會議論文集(技術報告篇)[C];2005年
7 王國霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應用[A];第25屆中國控制與決策會議論文集[C];2013年
8 王雪;董愛華;吳怡之;;基于RFID技術的智能服裝推薦系統(tǒng)設計[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年
中國重要報紙全文數(shù)據庫 前2條
1 ;大數(shù)據如何“落地”[N];中國新聞出版報;2014年
2 本報記者 鄒大斌;大數(shù)據:電商新武器[N];計算機世界;2012年
中國博士學位論文全文數(shù)據庫 前10條
1 周魏;推薦系統(tǒng)中基于目標項目分析的托攻擊檢測研究[D];重慶大學;2015年
2 王宏宇;商務推薦系統(tǒng)的設計研究[D];中國科學技術大學;2007年
3 楊東輝;基于情感相似度的社會化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學;2014年
4 曹渝昆;基于神經網絡和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學;2006年
5 王立才;上下文感知推薦系統(tǒng)若干關鍵技術研究[D];北京郵電大學;2012年
6 劉龍;一個能實現(xiàn)個性化實時路徑推薦服務的推薦系統(tǒng)框架[D];中國科學技術大學;2014年
7 李濤;推薦系統(tǒng)中若干關鍵問題研究[D];南京航空航天大學;2009年
8 劉士琛;面向推薦系統(tǒng)的關鍵問題研究及應用[D];中國科學技術大學;2014年
9 李方方;非獨立同分布推薦系統(tǒng)研究[D];北京理工大學;2014年
10 李曉建;基于語義的個性化資源推薦系統(tǒng)中關鍵技術研究[D];武漢大學;2010年
中國碩士學位論文全文數(shù)據庫 前10條
1 朱孔真;基于云計算的電子商務智能推薦系統(tǒng)研究[D];武漢理工大學;2014年
2 郭敬澤;基于賦權評分和Dpark的分布式推薦系統(tǒng)研究與實現(xiàn)[D];天津理工大學;2015年
3 周俊宇;信息推薦系統(tǒng)的研究與設計[D];江南大學;2015年
4 李煒;基于電子商務平臺的保險推薦系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2013年
5 車豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學;2015年
6 秦大路;基于因式分解機模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學;2015年
7 徐霞婷;動態(tài)路網監(jiān)控與導航推薦系統(tǒng)的設計與實現(xiàn)[D];蘇州大學;2015年
8 黃學峰;基于Hadoop的電影推薦系統(tǒng)研究與實現(xiàn)[D];南京師范大學;2015年
9 路小瑞;基于Hadoop平臺的職位推薦系統(tǒng)的設計與實現(xiàn)[D];上海交通大學;2015年
10 李愛寶;基于組合消費行為分析的團購推薦系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
,本文編號:622633
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/622633.html