分布式電商主題搜索引擎研究
本文選題:電商 + 主題 ; 參考:《華南理工大學(xué)》2016年碩士論文
【摘要】:當(dāng)前互聯(lián)網(wǎng)信息規(guī)模正在不斷的增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。人們?cè)诨ヂ?lián)網(wǎng)如此海量的數(shù)據(jù)中查找到自己所需的信息變得越來(lái)越困難。人們?cè)絹?lái)越趨向于使用搜索引擎來(lái)搜索信息,而且多數(shù)情況下,人們的搜索目的往往趨向于某個(gè)特定的領(lǐng)域。當(dāng)前互聯(lián)網(wǎng)上的搜索引擎多數(shù)都是通用的搜索引擎,搜索的內(nèi)容主題不明確,內(nèi)容廣泛,對(duì)于用戶特定領(lǐng)域信息的搜索需求已經(jīng)顯得力不從心。隨著互聯(lián)網(wǎng)信息數(shù)據(jù)的迅速增長(zhǎng),主題化、智能化、個(gè)性化已經(jīng)慢慢的成為搜索引擎發(fā)展的方向,特別是基于某種特定主題的搜索引擎是其中的研究熱點(diǎn)。當(dāng)前消費(fèi)者獲取電商產(chǎn)品信息依賴于電商門戶網(wǎng)站,而無(wú)法通過(guò)搜索引擎來(lái)進(jìn)行查詢搜索,而且以電商為主題的搜索引擎為消費(fèi)者提供相關(guān)商品信息的研究還比較少。本文針對(duì)通用搜索引擎搜索無(wú)法為用戶提供深入商品信息的問(wèn)題,設(shè)計(jì)開發(fā)基于電商主題的搜索引擎系統(tǒng),方便用戶快速準(zhǔn)確地查詢到相關(guān)的商品信息。本文以電商搜索為主題,結(jié)合實(shí)際應(yīng)用需求,研究基于Hadoop的分布式主題搜索引擎以及其相關(guān)的技術(shù)原理。首先深入分析搜索引擎相關(guān)的技術(shù)原理,如網(wǎng)絡(luò)爬蟲,數(shù)據(jù)索引,中文分詞,網(wǎng)頁(yè)分類,搜索評(píng)分等主題搜索引擎必須的技術(shù),為本文的研究打下結(jié)實(shí)的基礎(chǔ);然后深入剖析分布式計(jì)算框架MapReduce和分布式文件系統(tǒng)HDFS,引入基于MapReduce編程模型的設(shè)計(jì)方案。完成了在Hadoop平臺(tái)上的系統(tǒng)架構(gòu)設(shè)計(jì),系統(tǒng)功能劃分,網(wǎng)頁(yè)爬蟲流程、索引流程以及搜索流程的分析和設(shè)計(jì),完成了三個(gè)子系統(tǒng)的實(shí)現(xiàn)與改進(jìn)。在系統(tǒng)實(shí)現(xiàn)過(guò)程中引用Nutch作為網(wǎng)頁(yè)爬蟲的基本框架,引用Solr作為搜索框架,同時(shí)引入中文分詞器(IK-Analyzer)來(lái)處理中文內(nèi)容。在基于Nutch的網(wǎng)絡(luò)爬蟲中針對(duì)當(dāng)前電商網(wǎng)絡(luò)爬蟲存在的問(wèn)題做了分析并提出了解決方案。最后部署實(shí)現(xiàn)了4個(gè)節(jié)點(diǎn)的分布式搜索引擎系統(tǒng),并以京東、天貓為例,對(duì)本系統(tǒng)進(jìn)行搜索查詢測(cè)試與評(píng)價(jià)。
[Abstract]:At present, the scale of Internet information is constantly growing, the Internet has entered the big data era. It is becoming more and more difficult for people to find the information they need in such a huge amount of data on the Internet. More and more people tend to use search engines to search for information, and in most cases, people tend to search for a specific field. At present, most search engines on the Internet are general search engines, the content of search is not clear, the content of a wide range of search requirements for users in specific areas of information has become inadequate. With the rapid growth of Internet information data, theming, intelligence and personalization have gradually become the direction of search engine development, especially the search engine based on a specific topic is one of the research hotspots. At present, consumers rely on e-commerce portal to obtain e-commerce product information, but can not search through search engines. Moreover, the research on how to provide consumers with relevant commodity information by e-commerce search engines is relatively rare. Aiming at the problem that the general search engine can not provide the users with in-depth commodity information, this paper designs and develops a search engine system based on the topic of e-commerce, which is convenient for users to query the relevant commodity information quickly and accurately. In this paper, we study the distributed subject search engine based on Hadoop and its related technical principles. Firstly, the necessary technology of search engine, such as web crawler, data index, Chinese word segmentation, web page classification, search score and so on, is deeply analyzed, which lays a solid foundation for the research of this paper. Then, the distributed computing framework MapReduce and the distributed file system HDFSare deeply analyzed, and the design scheme based on MapReduce programming model is introduced. The system architecture design, system function partition, web crawler flow, index flow and search flow are analyzed and designed on Hadoop platform. The implementation and improvement of three subsystems are completed. Nutch is used as the basic frame of web crawler, Solr is used as the search frame, and IK-Analyzer is introduced to deal with Chinese content. In this paper, the problems of current ecommerce network crawlers are analyzed in Nutch-based network crawlers and solutions are proposed. Finally, the distributed search engine system with four nodes is implemented, and the JingDong and Tmall are taken as examples to test and evaluate the system.
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱松巖;;網(wǎng)頁(yè)設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期
2 安琳;;國(guó)外網(wǎng)頁(yè)信息存檔項(xiàng)目及相關(guān)問(wèn)題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁(yè)長(zhǎng)期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
6 王爍;;美國(guó)網(wǎng)頁(yè)歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁(yè)信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁(yè)設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁(yè)信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期
10 項(xiàng)鎮(zhèn);網(wǎng)頁(yè)設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
相關(guān)會(huì)議論文 前10條
1 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語(yǔ)義標(biāo)注的網(wǎng)頁(yè)廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 敖志敏;基于網(wǎng)頁(yè)相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁(yè)設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號(hào):2089639
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2089639.html