分布式網(wǎng)絡(luò)爬蟲在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究
本文關(guān)鍵詞:分布式網(wǎng)絡(luò)爬蟲在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究
更多相關(guān)文章: Nutch 分布式系統(tǒng) 網(wǎng)絡(luò)爬蟲 垂直搜索 農(nóng)產(chǎn)品
【摘要】:在互聯(lián)網(wǎng)信息規(guī)模快速增長的背景下,要想將互聯(lián)網(wǎng)上各種各樣的信息全部涵蓋和收集顯得不太現(xiàn)實,即使是谷歌、百度這樣的搜索引擎公司也只能收集到不到20%的互聯(lián)網(wǎng)信息[1]。通用搜索引擎在人們的生活中起著越來越關(guān)鍵的作用,但是隨著人們需求的多元化,以及通用引擎自身局限性,通常精確的搜索需求得不到滿足。網(wǎng)絡(luò)商品信息繁多,各種農(nóng)產(chǎn)品隨著產(chǎn)地和時間的不同,價格變化大,而且農(nóng)產(chǎn)品交易網(wǎng)站數(shù)量眾多,如何快捷的得到自己感興趣的網(wǎng)絡(luò)農(nóng)產(chǎn)品信息就是一個值得研究的問題了。由于網(wǎng)絡(luò)信息量巨大,即使是農(nóng)產(chǎn)品這樣一個非常狹小的領(lǐng)域,也會涉及到海量的信息。建立一個比價系統(tǒng)首要的就是信息源的選取,在海量信息面前,單機爬蟲顯然是作用有限的。本文提出了將網(wǎng)絡(luò)爬蟲和分布式的系統(tǒng)進行結(jié)合,在多機集群的分布式系統(tǒng)中實現(xiàn)的網(wǎng)絡(luò)爬蟲,從而提高信息下載收集的效率。本文所構(gòu)建的系統(tǒng)是在Nutch這個成熟的搜索引擎架構(gòu)上進行功能化和特性化的改造,使系統(tǒng)可以針對農(nóng)產(chǎn)品的信息建立索引,并提供搜索和查詢功能。由于本文研究的是針對特定領(lǐng)域的商品信息,因此在對商品信息進行搜索和建立索引時,就會涉及到URL的過濾和主題相關(guān)性的判斷問題。我們結(jié)合了HTMLParaser和正則表達式對URL進行過濾,在對網(wǎng)頁的內(nèi)容主題相關(guān)性判定時,借助于空間向量模型。在收集完相關(guān)網(wǎng)頁信息后,在進行建立搜索和搜索服務(wù)提供時,都會涉及到分詞操作,由于Nutch中原有的分詞操作不能夠較好的實現(xiàn)中文分詞,我們選用了對中文分詞支持比較好的IKAnalyzer來完成中文的分詞。索引操作是對于收集到的信息進行一個預(yù)先的組織優(yōu)化,使信息能夠快速的被定位到。Nutch系統(tǒng)中采用的檢索,由Lucene提供的全文檢索系統(tǒng),對網(wǎng)頁信息進行索引建立,為高效搜索提供支持。最后將基于Nutch的面向農(nóng)產(chǎn)品商品信息的分布式爬蟲系統(tǒng),進行部署進行實驗驗證,發(fā)現(xiàn)分布式的爬蟲相對于普通爬蟲還是存在著并行的優(yōu)勢。整個系統(tǒng)還能夠很好的對網(wǎng)絡(luò)中農(nóng)產(chǎn)品建立索引并集成這些信息,為用戶提供農(nóng)業(yè)產(chǎn)品商品信息的檢索服務(wù)和一定的排序比較功能,實現(xiàn)個性化搜索服務(wù),從而對系統(tǒng)可用性進行了驗證。
【學位授予單位】:南昌大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 趙霞;;“一站通”打造江蘇農(nóng)產(chǎn)品信息服務(wù)品牌[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年11期
2 劉建峰;李媛紅;;EAN體系在農(nóng)產(chǎn)品質(zhì)量安全追溯中的應(yīng)用[J];中國自動識別技術(shù);2006年02期
3 解菁;孫傳恒;周超;李文勇;吳曉明;楊信廷;;基于GPS的農(nóng)產(chǎn)品原產(chǎn)地定位與標識系統(tǒng)[J];農(nóng)業(yè)機械學報;2013年03期
4 侯春生;夏寧;;RFID技術(shù)在中國農(nóng)產(chǎn)品質(zhì)量安全溯源體系中的應(yīng)用研究[J];中國農(nóng)學通報;2010年03期
5 張翔;耿曉琴;張云華;;農(nóng)產(chǎn)品溯源系統(tǒng)的設(shè)計與實現(xiàn)[J];工業(yè)控制計算機;2014年06期
6 尚成國;曲磊;杜成杰;;基于IDEF建模的農(nóng)產(chǎn)品信息系統(tǒng)信息流轉(zhuǎn)模式[J];計算機系統(tǒng)應(yīng)用;2012年05期
7 ;黑龍江地圖169上化[J];每周電腦報;1999年36期
8 ;怎樣上網(wǎng)查詢農(nóng)產(chǎn)品信息[J];今日農(nóng)村;2002年04期
9 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 肖靜;劉建強;于海青;李敏;;信息化在農(nóng)產(chǎn)品質(zhì)量安全方面的應(yīng)用[A];山東省農(nóng)業(yè)資源與環(huán)境保護優(yōu)秀論文集(2004—2006)[C];2007年
2 王元仲;劉莉;;無公害農(nóng)產(chǎn)品信息管理系統(tǒng)研究與應(yīng)用[A];全國耕地土壤污染監(jiān)測與評價技術(shù)研討會論文集[C];2006年
3 劉建鋼;;湖南農(nóng)產(chǎn)品物流的發(fā)展對策[A];推動新型工業(yè)化 促進湖南經(jīng)濟發(fā)展——2007年湖南科技論壇(下)[C];2007年
4 趙文穎;周修理;鄧銘輝;;農(nóng)產(chǎn)品質(zhì)量與安全追溯系統(tǒng)的研究與應(yīng)用[A];中國農(nóng)業(yè)工程學會2011年學術(shù)年會論文集[C];2011年
5 王紅民;胡海燕;;IT技術(shù)在農(nóng)產(chǎn)品流通中的作用[A];依靠科技進步促進農(nóng)業(yè)產(chǎn)業(yè)發(fā)展——“科技進步與農(nóng)業(yè)產(chǎn)業(yè)發(fā)展論壇”文集[C];2003年
6 李愛青;;安徽生態(tài)農(nóng)業(yè)的現(xiàn)狀與加速推進農(nóng)產(chǎn)品質(zhì)量安全的對策[A];食品安全的理論與實踐——安徽食品安全博士科技論壇論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 王蕾 通訊員 劉家旺;上市農(nóng)產(chǎn)品信息將可溯源[N];泉州晚報;2013年
2 記者羅昌愛;廣西開辦網(wǎng)上農(nóng)產(chǎn)品洽談會[N];人民日報;2003年
3 王衛(wèi)英邋通訊員 葉利宏;省名品正牌農(nóng)產(chǎn)品我市23個產(chǎn)品上榜[N];金華日報;2008年
4 崔璀邋通訊員 李旭麗;蓮都3個農(nóng)產(chǎn)品躋身浙江“名品正牌”[N];麗水日報;2008年
5 本報記者 汪名立;農(nóng)產(chǎn)品信息系統(tǒng)不能成擺設(shè)[N];新農(nóng)村商報;2010年
6 本報記者 汪名立;農(nóng)產(chǎn)品信息系統(tǒng)須打破樊籬走出孤島[N];新農(nóng)村商報;2011年
7 河北農(nóng)業(yè)大學 賈國銀 趙憲軍;農(nóng)產(chǎn)品營銷策略談[N];河北科技報;2004年
8 首席記者 高淑華;農(nóng)民輕點鼠標即可享用信息套餐[N];盤錦日報;2006年
9 劉恒 通訊員 蘇政;重慶聯(lián)通“過年卡”服務(wù)返鄉(xiāng)民眾[N];人民郵電;2007年
10 記者 張銳;鄉(xiāng)村信息“一網(wǎng)打盡”[N];云南日報;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前5條
1 張志強;基于移動終端的農(nóng)產(chǎn)品信息監(jiān)測系統(tǒng)研究與實現(xiàn)[D];南京郵電大學;2016年
2 袁龍濤;分布式網(wǎng)絡(luò)爬蟲在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究[D];南昌大學;2016年
3 王峰;農(nóng)產(chǎn)品信息服務(wù)平臺建設(shè)研究[D];新疆農(nóng)業(yè)大學;2012年
4 袁艷如;西北地區(qū)農(nóng)產(chǎn)品信息的社會化供給研究[D];蘭州大學;2013年
5 吳振華;基于區(qū)位碼和多重加密的農(nóng)產(chǎn)品追溯編碼的設(shè)計[D];河南農(nóng)業(yè)大學;2012年
,本文編號:1173377
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1173377.html