《武漢理工大學》2013年碩士論文
本文關鍵詞:比較購物搜索引擎的研究與應用,由筆耕文化傳播整理發(fā)布。
《武漢理工大學》 2013年
比較購物搜索引擎的研究與應用
黃佳
【摘要】:在網(wǎng)上購物領域,隨著電子商務網(wǎng)站的服務商數(shù)量和產(chǎn)品數(shù)量的迅速增加,廣大消費者面臨著更多的困惑:在如此眾多的商品中,如何才能找到適合自己需要的網(wǎng)站和物品呢?哪兒的商品更便宜?如何獲得性價比最高的商品和服務?這些問題都讓用戶感到茫然。比較購物是一種采取信息獲取技術開發(fā)的購物代理軟件。這種軟件通過收集眾多的網(wǎng)上商家信息,對各種商品的價格、性能、配送方式以及服務等進行比較,向用戶提供不同在線銷售商的商品信息。因此是一個省時省力又省錢的購物途徑,得到了大多數(shù)電子商務用戶的好評。 本文主要研究網(wǎng)頁數(shù)據(jù)的抓取和解析,網(wǎng)頁數(shù)據(jù)的抓取是由網(wǎng)絡蜘蛛Spider完成的,而網(wǎng)頁數(shù)據(jù)的解析是指從抓取到的網(wǎng)頁中提取出結構化的信息。在網(wǎng)頁數(shù)據(jù)抓取部分,本文對通用搜索引擎中的Spider抓取網(wǎng)頁數(shù)據(jù)的一般傳統(tǒng)框架進行了改進,根據(jù)專業(yè)搜索引擎的特點,提出了一種優(yōu)化的網(wǎng)頁數(shù)據(jù)抓取框架,即在Spider抓取URL鏈接時,增加了“URL提取干預”,從而提高了專業(yè)搜索引擎抓取網(wǎng)頁數(shù)據(jù)的效率。在網(wǎng)頁數(shù)據(jù)解析部分,本文實現(xiàn)了一個擴展性良好的WEB信息抽取模塊。 為了解決網(wǎng)頁數(shù)據(jù)的抓取和數(shù)據(jù)處理之間的速度矛盾,本文設計了一種生產(chǎn)者-消費者模型,即在數(shù)據(jù)抓取和數(shù)據(jù)處理之間建立了網(wǎng)頁數(shù)據(jù)緩存機制,有利于搜索引擎整體性能的提高。 另外,針對目前國內的大多數(shù)比較購物網(wǎng)站只為用戶提供了商品價格的比較,缺乏對不同購物網(wǎng)站上用戶體驗和用戶評價的比較,信息參考尚為欠缺這一問題,本文在對網(wǎng)頁數(shù)據(jù)進行處理時,抽取了商品的好評率。雖然價格是現(xiàn)階段決定網(wǎng)絡購物用戶購買的主要因素,但隨著網(wǎng)絡購物的發(fā)展,除價格以外如商品測評和已購用戶的評價等對購買的影響將越來越大。 最后,本文以京東商城和亞馬遜上面的手機數(shù)據(jù)作為數(shù)據(jù)抓取的實例,設計并實現(xiàn)了一個基于比較購物的搜索引擎系統(tǒng)原型,既能提供商品價格的比較,又能提供用戶對商品及服務評價的比較,以便為用戶提供更好的購物體驗。
【關鍵詞】:
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3;TP393.09
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 劉春輝;;比較購物,Google做不到[J];中國電子商務;2008年05期
2 田真平;;我國比較購物模式發(fā)展面臨的問題及對策研究[J];商場現(xiàn)代化;2006年29期
3 方志堅;張瑞林;童小素;;搜索引擎綜合分析[J];計算機工程與設計;2007年16期
中國碩士學位論文全文數(shù)據(jù)庫 前5條
1 王煜;Internet智能比較購物的研究與實現(xiàn)[D];浙江工商大學;2006年
2 陳意;垂直搜索中自動信息抽取關鍵技術的研究與實踐[D];浙江大學;2008年
3 江娟;垂直搜索引擎數(shù)據(jù)分析技術的研究與實現(xiàn)[D];華北電力大學(北京);2008年
4 文斌;新聞垂直搜索引擎的設計[D];華中科技大學;2007年
5 孫軒;主題搜索引擎的關鍵技術研究與實現(xiàn)[D];武漢理工大學;2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 季元葉;;服務發(fā)現(xiàn)體系架構發(fā)展現(xiàn)狀及新架構的研究[J];辦公自動化;2012年10期
2 劉椿年,宋霞;基于Boosting的半結構化信息抽取[J];北京工業(yè)大學學報;2005年02期
3 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學學報(自然科學版);2008年02期
4 陳治昂;張毅;李大學;;基于Web智能的網(wǎng)絡廣告監(jiān)測器研究與設計[J];重慶郵電大學學報(自然科學版);2009年01期
5 叢榮華;;網(wǎng)絡教育中的數(shù)據(jù)收集技術[J];長春師范學院學報;2006年10期
6 李春杰;崔紅霞;;基于多Agent搜索行為分析的用戶興趣模型[J];吉林大學學報(信息科學版);2010年02期
7 尚冬娟;張敏;;信息過濾系統(tǒng)中的混合式過濾算法[J];重慶工學院學報(自然科學版);2008年01期
8 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術[J];重慶理工大學學報(自然科學版);2011年01期
9 杜友福;程彩鳳;趙鳴;;搜索引擎中智能代理技術及啟發(fā)式搜索策略研究[J];長江大學學報(自然科學版)理工卷;2009年02期
10 劉雙印;徐龍琴;沈玉利;;改進小生境遺傳算法在元搜索引擎調度優(yōu)化中的研究[J];重慶師范大學學報(自然科學版);2008年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳紅兵;;基于XML的電子政務信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 李紀華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學術研討會論文集[C];2010年
3 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
4 劉秉權;王喻紅;葛冬梅;李佳;;基于結構樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學會2007年學術交流年會論文集[C];2007年
5 周小平;梁一平;鄧左祥;;元搜索引擎研究[A];2009年中國高校通信類院系學術研討會論文集[C];2009年
6 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 張赪軍;劉祥瑞;李軍;黃紅梅;;基于本體的語義檢索技術研究[A];全國第4屆信號和智能信息處理與應用學術會議論文集[C];2010年
8 張赪軍;黃紅梅;王晨熙;李軍;;構建智能信息檢索系統(tǒng)[A];全國第4屆信號和智能信息處理與應用學術會議論文集[C];2010年
9 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡與信息安全技術研討會論文集(上冊)[C];2007年
10 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年
2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學;2011年
3 檀敬東;文本挖掘的若干關鍵算法研究[D];中國科學技術大學;2010年
4 田俊華;基于本體知識庫的教學資源自動采集技術研究[D];南京師范大學;2011年
5 龍華;定義問答檢索關鍵技術研究[D];重慶大學;2010年
6 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
7 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應用研究[D];大連海事大學;2011年
8 寇月;Deep Web實體搜索的關鍵技術研究[D];東北大學;2009年
9 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年
10 陳治平;智能搜索引擎理論與應用研究[D];湖南大學;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學;2009年
2 程賓;基于用戶興趣模型的元搜索引擎的研究[D];山東科技大學;2010年
3 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年
4 徐財應;基于Lucene的搜索引擎技術的研究與改進[D];長春理工大學;2010年
5 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年
6 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學;2010年
7 秦宏宇;網(wǎng)絡輿情熱點發(fā)現(xiàn)相關技術研究[D];哈爾濱工程大學;2010年
8 朱瑩婷;基于遷移學習理論的Markov檢索模型[D];江西師范大學;2010年
9 叢肖為;敏感信息監(jiān)管系統(tǒng)的設計與實現(xiàn)[D];華東師范大學;2010年
10 毛敏芹;對搜索引擎擴充語義信息功能方法研究[D];華東師范大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設計及實現(xiàn)[J];北京理工大學學報;2002年01期
2 丁璇,侯漢清,章成志;中文網(wǎng)頁標引源主題表達能力的調查統(tǒng)計[J];大學圖書館學報;2002年06期
3 謝文輝;比較購物之比較[J];中國電子商務;2000年22期
4 夏夢;ChinaEC比較購物之旅[J];中國電子商務;2005年02期
5 蘇云;搜索引擎Google檢索技巧研究[J];甘肅科技;2005年02期
6 郭志紅;基于Web資源的信息抽取技術[J];情報科學;2002年12期
7 鄧長壽,趙秉巖;下一代Web搜索引擎探討[J];情報科學;2005年03期
8 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報科學;2007年01期
9 李蕾,王楠,鐘義信,郭祥昊,韓鵬,賈自燕,高清霞;基于語義網(wǎng)絡的概念檢索研究與實現(xiàn)[J];情報學報;2000年05期
10 唐培和,楊新論,劉浩;Google搜索引擎剖析[J];情報雜志;2004年08期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 彭濤;面向專業(yè)搜索引擎的主題爬行技術研究[D];吉林大學;2007年
2 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王斐;基于增量反饋和自適應機制的主題爬蟲系統(tǒng)的設計與實現(xiàn)[D];南京理工大學;2005年
2 李盛韜;基于主題的Web信息采集技術研究[D];中國科學院研究生院(計算技術研究所);2002年
3 王曉偉;垂直搜索引擎若干關鍵技術的研究[D];浙江大學;2007年
4 謝冬松;基于Web的主題搜索應用技術研究[D];黑龍江大學;2007年
5 李文澤;個性化垂直搜索引擎研究[D];河南大學;2007年
6 李君梅;基于Web Community識別的聚焦爬蟲算法研究與設計[D];浙江大學;2008年
7 楊貞;基于本體的主題爬蟲的設計與實現(xiàn)[D];合肥工業(yè)大學;2008年
8 趙士青;專業(yè)搜索引擎關鍵技術的研究[D];沈陽工業(yè)大學;2007年
9 王攀;主題搜索引擎的設計與實現(xiàn)[D];華中科技大學;2007年
10 劉朋;基于Lucene的垂直搜索引擎關鍵技術的研究應用[D];武漢理工大學;2009年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;Smarter.com正式登陸日本和中國市場[J];信息產(chǎn)業(yè)報道;2005年12期
2 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡與信息;1999年09期
3 ;關鍵詞搜索[J];每周電腦報;2000年38期
4 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學之友;2000年07期
5 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術學院學報;2001年01期
6 周毅華;從搜索引擎的分類看其應用技巧[J];圖書館理論與實踐;2002年06期
7 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學研究;2002年05期
8 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期
9 林中;GOOGLE搜索引擎的關鍵詞檢索[J];中國信息導報;2003年03期
10 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡任我行——搜索引擎絕對專題[J];網(wǎng)絡與信息;2003年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
5 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡搜索技術下的編輯工作[A];學報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;[N];民營經(jīng)濟報;2006年
2 商報記者 吳辰光;[N];北京現(xiàn)代商報;2006年
3 李一鑫;[N];財經(jīng)時報;2007年
4 周文林;[N];經(jīng)濟參考報;2007年
5 惠正一;[N];第一財經(jīng)日報;2005年
6 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務咨詢中心 常燕杰;[N];中國計算機報;2005年
7 陳珊;[N];人民郵電;2005年
8 趙法忠;[N];中國經(jīng)營報;2005年
9 金朝力;[N];北京商報;2006年
10 本報記者 趙曉輝 孟昭麗;[N];中國證券報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
9 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關鍵技術研究[D];沈陽農(nóng)業(yè)大學;2013年
10 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 何華;搜索引擎中的數(shù)據(jù)存儲問題研究[D];浙江大學;2005年
2 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年
3 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結果排序策略的研究[D];西北農(nóng)林科技大學;2010年
4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
5 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
7 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學;2010年
8 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年
9 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學院;2003年
10 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學;2004年
本文關鍵詞:比較購物搜索引擎的研究與應用,由筆耕文化傳播整理發(fā)布。
,本文編號:48272
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/48272.html