分布式網(wǎng)絡(luò)爬蟲(chóng)在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究
本文關(guān)鍵詞:分布式網(wǎng)絡(luò)爬蟲(chóng)在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究
更多相關(guān)文章: Nutch 分布式系統(tǒng) 網(wǎng)絡(luò)爬蟲(chóng) 垂直搜索 農(nóng)產(chǎn)品
【摘要】:在互聯(lián)網(wǎng)信息規(guī)?焖僭鲩L(zhǎng)的背景下,要想將互聯(lián)網(wǎng)上各種各樣的信息全部涵蓋和收集顯得不太現(xiàn)實(shí),即使是谷歌、百度這樣的搜索引擎公司也只能收集到不到20%的互聯(lián)網(wǎng)信息[1]。通用搜索引擎在人們的生活中起著越來(lái)越關(guān)鍵的作用,但是隨著人們需求的多元化,以及通用引擎自身局限性,通常精確的搜索需求得不到滿足。網(wǎng)絡(luò)商品信息繁多,各種農(nóng)產(chǎn)品隨著產(chǎn)地和時(shí)間的不同,價(jià)格變化大,而且農(nóng)產(chǎn)品交易網(wǎng)站數(shù)量眾多,如何快捷的得到自己感興趣的網(wǎng)絡(luò)農(nóng)產(chǎn)品信息就是一個(gè)值得研究的問(wèn)題了。由于網(wǎng)絡(luò)信息量巨大,即使是農(nóng)產(chǎn)品這樣一個(gè)非常狹小的領(lǐng)域,也會(huì)涉及到海量的信息。建立一個(gè)比價(jià)系統(tǒng)首要的就是信息源的選取,在海量信息面前,單機(jī)爬蟲(chóng)顯然是作用有限的。本文提出了將網(wǎng)絡(luò)爬蟲(chóng)和分布式的系統(tǒng)進(jìn)行結(jié)合,在多機(jī)集群的分布式系統(tǒng)中實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng),從而提高信息下載收集的效率。本文所構(gòu)建的系統(tǒng)是在Nutch這個(gè)成熟的搜索引擎架構(gòu)上進(jìn)行功能化和特性化的改造,使系統(tǒng)可以針對(duì)農(nóng)產(chǎn)品的信息建立索引,并提供搜索和查詢功能。由于本文研究的是針對(duì)特定領(lǐng)域的商品信息,因此在對(duì)商品信息進(jìn)行搜索和建立索引時(shí),就會(huì)涉及到URL的過(guò)濾和主題相關(guān)性的判斷問(wèn)題。我們結(jié)合了HTMLParaser和正則表達(dá)式對(duì)URL進(jìn)行過(guò)濾,在對(duì)網(wǎng)頁(yè)的內(nèi)容主題相關(guān)性判定時(shí),借助于空間向量模型。在收集完相關(guān)網(wǎng)頁(yè)信息后,在進(jìn)行建立搜索和搜索服務(wù)提供時(shí),都會(huì)涉及到分詞操作,由于Nutch中原有的分詞操作不能夠較好的實(shí)現(xiàn)中文分詞,我們選用了對(duì)中文分詞支持比較好的IKAnalyzer來(lái)完成中文的分詞。索引操作是對(duì)于收集到的信息進(jìn)行一個(gè)預(yù)先的組織優(yōu)化,使信息能夠快速的被定位到。Nutch系統(tǒng)中采用的檢索,由Lucene提供的全文檢索系統(tǒng),對(duì)網(wǎng)頁(yè)信息進(jìn)行索引建立,為高效搜索提供支持。最后將基于Nutch的面向農(nóng)產(chǎn)品商品信息的分布式爬蟲(chóng)系統(tǒng),進(jìn)行部署進(jìn)行實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)分布式的爬蟲(chóng)相對(duì)于普通爬蟲(chóng)還是存在著并行的優(yōu)勢(shì)。整個(gè)系統(tǒng)還能夠很好的對(duì)網(wǎng)絡(luò)中農(nóng)產(chǎn)品建立索引并集成這些信息,為用戶提供農(nóng)業(yè)產(chǎn)品商品信息的檢索服務(wù)和一定的排序比較功能,實(shí)現(xiàn)個(gè)性化搜索服務(wù),從而對(duì)系統(tǒng)可用性進(jìn)行了驗(yàn)證。
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 趙霞;;“一站通”打造江蘇農(nóng)產(chǎn)品信息服務(wù)品牌[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年11期
2 劉建峰;李媛紅;;EAN體系在農(nóng)產(chǎn)品質(zhì)量安全追溯中的應(yīng)用[J];中國(guó)自動(dòng)識(shí)別技術(shù);2006年02期
3 解菁;孫傳恒;周超;李文勇;吳曉明;楊信廷;;基于GPS的農(nóng)產(chǎn)品原產(chǎn)地定位與標(biāo)識(shí)系統(tǒng)[J];農(nóng)業(yè)機(jī)械學(xué)報(bào);2013年03期
4 侯春生;夏寧;;RFID技術(shù)在中國(guó)農(nóng)產(chǎn)品質(zhì)量安全溯源體系中的應(yīng)用研究[J];中國(guó)農(nóng)學(xué)通報(bào);2010年03期
5 張翔;耿曉琴;張?jiān)迫A;;農(nóng)產(chǎn)品溯源系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];工業(yè)控制計(jì)算機(jī);2014年06期
6 尚成國(guó);曲磊;杜成杰;;基于IDEF建模的農(nóng)產(chǎn)品信息系統(tǒng)信息流轉(zhuǎn)模式[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年05期
7 ;黑龍江地圖169上化[J];每周電腦報(bào);1999年36期
8 ;怎樣上網(wǎng)查詢農(nóng)產(chǎn)品信息[J];今日農(nóng)村;2002年04期
9 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 肖靜;劉建強(qiáng);于海青;李敏;;信息化在農(nóng)產(chǎn)品質(zhì)量安全方面的應(yīng)用[A];山東省農(nóng)業(yè)資源與環(huán)境保護(hù)優(yōu)秀論文集(2004—2006)[C];2007年
2 王元仲;劉莉;;無(wú)公害農(nóng)產(chǎn)品信息管理系統(tǒng)研究與應(yīng)用[A];全國(guó)耕地土壤污染監(jiān)測(cè)與評(píng)價(jià)技術(shù)研討會(huì)論文集[C];2006年
3 劉建鋼;;湖南農(nóng)產(chǎn)品物流的發(fā)展對(duì)策[A];推動(dòng)新型工業(yè)化 促進(jìn)湖南經(jīng)濟(jì)發(fā)展——2007年湖南科技論壇(下)[C];2007年
4 趙文穎;周修理;鄧銘輝;;農(nóng)產(chǎn)品質(zhì)量與安全追溯系統(tǒng)的研究與應(yīng)用[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
5 王紅民;胡海燕;;IT技術(shù)在農(nóng)產(chǎn)品流通中的作用[A];依靠科技進(jìn)步促進(jìn)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展——“科技進(jìn)步與農(nóng)業(yè)產(chǎn)業(yè)發(fā)展論壇”文集[C];2003年
6 李愛(ài)青;;安徽生態(tài)農(nóng)業(yè)的現(xiàn)狀與加速推進(jìn)農(nóng)產(chǎn)品質(zhì)量安全的對(duì)策[A];食品安全的理論與實(shí)踐——安徽食品安全博士科技論壇論文集[C];2005年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 記者 王蕾 通訊員 劉家旺;上市農(nóng)產(chǎn)品信息將可溯源[N];泉州晚報(bào);2013年
2 記者羅昌愛(ài);廣西開(kāi)辦網(wǎng)上農(nóng)產(chǎn)品洽談會(huì)[N];人民日?qǐng)?bào);2003年
3 王衛(wèi)英邋通訊員 葉利宏;省名品正牌農(nóng)產(chǎn)品我市23個(gè)產(chǎn)品上榜[N];金華日?qǐng)?bào);2008年
4 崔璀邋通訊員 李旭麗;蓮都3個(gè)農(nóng)產(chǎn)品躋身浙江“名品正牌”[N];麗水日?qǐng)?bào);2008年
5 本報(bào)記者 汪名立;農(nóng)產(chǎn)品信息系統(tǒng)不能成擺設(shè)[N];新農(nóng)村商報(bào);2010年
6 本報(bào)記者 汪名立;農(nóng)產(chǎn)品信息系統(tǒng)須打破樊籬走出孤島[N];新農(nóng)村商報(bào);2011年
7 河北農(nóng)業(yè)大學(xué) 賈國(guó)銀 趙憲軍;農(nóng)產(chǎn)品營(yíng)銷策略談[N];河北科技報(bào);2004年
8 首席記者 高淑華;農(nóng)民輕點(diǎn)鼠標(biāo)即可享用信息套餐[N];盤(pán)錦日?qǐng)?bào);2006年
9 劉恒 通訊員 蘇政;重慶聯(lián)通“過(guò)年卡”服務(wù)返鄉(xiāng)民眾[N];人民郵電;2007年
10 記者 張銳;鄉(xiāng)村信息“一網(wǎng)打盡”[N];云南日?qǐng)?bào);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 張志強(qiáng);基于移動(dòng)終端的農(nóng)產(chǎn)品信息監(jiān)測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];南京郵電大學(xué);2016年
2 袁龍濤;分布式網(wǎng)絡(luò)爬蟲(chóng)在農(nóng)產(chǎn)品搜索系統(tǒng)中的應(yīng)用與研究[D];南昌大學(xué);2016年
3 王峰;農(nóng)產(chǎn)品信息服務(wù)平臺(tái)建設(shè)研究[D];新疆農(nóng)業(yè)大學(xué);2012年
4 袁艷如;西北地區(qū)農(nóng)產(chǎn)品信息的社會(huì)化供給研究[D];蘭州大學(xué);2013年
5 吳振華;基于區(qū)位碼和多重加密的農(nóng)產(chǎn)品追溯編碼的設(shè)計(jì)[D];河南農(nóng)業(yè)大學(xué);2012年
,本文編號(hào):1173377
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1173377.html