基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構建
本文關鍵詞:基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構建
更多相關文章: 網(wǎng)絡爬蟲 Scrapy 可視化技術 D3 中文自動問答系統(tǒng)
【摘要】:隨著大數(shù)據(jù)時代的來臨,互聯(lián)網(wǎng)信息急劇增長,依賴關鍵字進行搜索的傳統(tǒng)搜索引擎技術已日益不能滿足用戶快速準確檢索信息的需求。自動問答系統(tǒng)作為信息檢索領域的一種高級形式,.已然成為近年來研究的熱點和重點。研究構建中文自動問答系統(tǒng),滿足用戶直接以自然語言提出問題并能快速準確地獲取答案,有著十分重要的意義。本文利用網(wǎng)絡爬蟲技術,從電商平臺爬取商品數(shù)據(jù)信息,繼而構建電商平臺的中文自動問答系統(tǒng)以方便用戶準確獲取相關商品信息,主要工作如下:首先,選用Python語言編寫的開源爬蟲框架Scrapy,研究該框架的搭建和使用,并選取網(wǎng)易考拉海購平臺作為本文研究對象,分析考拉上商品的數(shù)據(jù)結構,最后基于Scrapy框架編寫網(wǎng)絡爬蟲程序并成功爬取考拉所有商品數(shù)據(jù)。其次,構建Web項目,并將項目發(fā)布到開源的中間件Tomcat上,這樣用戶只需在瀏覽器中輸入相應的鏈接即可看到考拉商品數(shù)據(jù)的動態(tài)關系圖譜并直觀的看到商品的各類信息,實現(xiàn)了商品的可視化展示。再次,構建考拉商品知識的詞典和詞性庫,實現(xiàn)了結合正向最大匹配算法和逆向最大匹配算法的分詞算法,自定義了有特色關鍵詞提取規(guī)則,并實現(xiàn)了相似度計算的編輯距離算法,最終設計實現(xiàn)了一款基于考拉商品知識庫的中文自動問答系統(tǒng)工具KOALAASK。最后,對KOALAASK系統(tǒng)工具進行了一系列功能性的測驗,實驗結果表明該系統(tǒng)工具具備高性能,反應迅速的特點。實驗中通過統(tǒng)計分析的方法,即對799個不同領域的商品信息進行提問并獲取答案,計算相應準確率,證明了系統(tǒng)工具在該特定商品知識領域擁有相當高的準確率,具有不錯的實用性。
【關鍵詞】:網(wǎng)絡爬蟲 Scrapy 可視化技術 D3 中文自動問答系統(tǒng)
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-10
- 第一章 緒論10-17
- 1.1 課題研究背景10-11
- 1.2 研究現(xiàn)狀11-15
- 1.2.1 網(wǎng)絡爬蟲的研究現(xiàn)狀11-12
- 1.2.2 問答系統(tǒng)的研究現(xiàn)狀12-14
- 1.2.3 存在的問題14-15
- 1.3 本文的研究目標與工作15
- 1.4 論文的組織結構15-17
- 第二章 研究基礎17-27
- 2.1 網(wǎng)絡爬蟲介紹17-18
- 2.1.1 網(wǎng)絡爬蟲的工作原理17
- 2.1.2 網(wǎng)頁去重17-18
- 2.2 Scrapy的詳細介紹18-20
- 2.3 正則表達式20-22
- 2.4 可視化技術22-24
- 2.4.1 可視化介紹22-23
- 2.4.2 D3簡介23-24
- 2.5 自動問答系統(tǒng)24-26
- 2.5.1 問答系統(tǒng)的原理24
- 2.5.2 問答系統(tǒng)關鍵技術24-26
- 2.6 本章小結26-27
- 第三章 爬取考拉數(shù)據(jù)的自動問答系統(tǒng)整體框架27-31
- 3.1 總體架構設計27-28
- 3.2 爬蟲模塊28
- 3.3 可視化模塊28-29
- 3.4 中文自動問答系統(tǒng)模塊29-30
- 3.5 本章小結30-31
- 第四章 基于Scrapy的數(shù)據(jù)爬蟲設計實現(xiàn)31-41
- 4.1 分析網(wǎng)易考拉網(wǎng)站31-32
- 4.2 利用正則表達式提取數(shù)據(jù)32-34
- 4.3 爬取模塊的設計實現(xiàn)34-40
- 4.3.1 創(chuàng)建項目及文件解釋35-36
- 4.3.2 實現(xiàn)Item容器36-37
- 4.3.3 定義數(shù)據(jù)輸出37
- 4.3.4 設置代理與防止死循環(huán)37-38
- 4.3.5 處理編碼格式38
- 4.3.6 編寫Spider模塊38-40
- 4.4 本章小結40-41
- 第五章 基于D3的考拉商品可視化設計實現(xiàn)41-48
- 5.1 可視化設計41-44
- 5.1.1 “開關”設計41-42
- 5.1.2 重繪函數(shù)設計42-44
- 5.2 考拉商品可視化實現(xiàn)44-47
- 5.3 本章小結47-48
- 第六章 簡易自動問答系統(tǒng)的設計實現(xiàn)48-61
- 6.1 KOALAASK工具的功能設計實現(xiàn)48-55
- 6.1.1 KOALAASK工具的動態(tài)模型48-49
- 6.1.2 KOALAASK分詞與詞性標注49-51
- 6.1.3 KOALAASK關鍵詞提取51-52
- 6.1.4 KOALAASK相似度的計算52-55
- 6.2 KOALAASK工具的測試55-60
- 6.2.1 功能性實驗55-58
- 6.2.2 實驗結果的分析58-60
- 6.3 本章小結60-61
- 第七章 總結和展望61-63
- 7.1 本文工作的總結61-62
- 7.2 進一步的研究工作62-63
- 參考文獻63-68
- 附錄68-70
- 在校期間參加的科研項目和發(fā)表的論文70-71
- 致謝71
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蘇芳仲;林世平;;基于事例推理的中文自動問答系統(tǒng)研究[J];福建電腦;2006年06期
2 劉里;曾慶田;;自動問答系統(tǒng)研究綜述[J];山東科技大學學報(自然科學版);2007年04期
3 孔令玉;;國外跨語言自動問答系統(tǒng)研究綜述[J];現(xiàn)代情報;2008年10期
4 王婧;;基于自動問答技術的智能文本機器人[J];科技創(chuàng)業(yè)家;2013年08期
5 盧炳衛(wèi);;關于自動問答技術的研究[J];農(nóng)業(yè)圖書情報學刊;2006年01期
6 夏凌;魏祖雪;;自動問答系統(tǒng)及其評測(英文)[J];西華大學學報(自然科學版);2007年02期
7 黃建崗;張愛華;;教務門戶網(wǎng)自動問答系統(tǒng)的設計與實現(xiàn)[J];電腦知識與技術;2009年36期
8 駱正華,樊孝忠,夏天;基于結構化問句實例的自動問答系統(tǒng)[J];微電子學與計算機;2005年07期
9 李照亮;張琳;;基于招生領域自動問答系統(tǒng)的問題理解的研究[J];電腦知識與技術;2009年10期
10 王正華;韓永國;;自動問答系統(tǒng)設計與實現(xiàn)[J];軟件導刊;2014年09期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 高俊杰;李茹;李雙紅;;基于領域本體的自動問答系統(tǒng)關鍵技術研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 張耀允;王曉龍;王軒;徐睿峰;侯永帥;范士喜;;面向開放的限定領域的交互式問答語料分析[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 劉國剛;;人工智能客戶服務體系的研究與實現(xiàn)[A];2008年中國通信學會無線及移動通信委員會學術年會論文集[C];2008年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 于士濤;基于問答網(wǎng)絡論壇知識體系的自動問答系統(tǒng)研究[D];南開大學;2009年
2 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領域自動問答系統(tǒng)研究[D];中國科學技術大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 吳安峻;面向自動問答的短問題分類研究[D];西南交通大學;2015年
2 王正華;自動問答系統(tǒng)的研究與實現(xiàn)[D];西南科技大學;2015年
3 王一凡;基于語義網(wǎng)的旅游業(yè)自動問答系統(tǒng)的研究[D];浙江大學;2016年
4 舒德華;基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構建[D];華中師范大學;2016年
5 王振佶;面向銷售服務的自動問答系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2011年
6 曹志娟;自動問答系統(tǒng)中的問題理解與信息檢索研究[D];重慶大學;2005年
7 周永梅;基于本體的自動問答系統(tǒng)[D];江蘇科技大學;2011年
8 馮嘉祺;自動問答系統(tǒng)語音接口的設計與實現(xiàn)[D];華中科技大學;2007年
9 李俊;限定領域自動問答技術研究[D];北方工業(yè)大學;2010年
10 蔣志鵬;黑龍江移動客戶服務自動問答系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2010年
,本文編號:837654
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/837654.html