面向美食的垂直搜索引擎的設計與實現(xiàn)
發(fā)布時間:2020-09-03 13:59
隨著這些年來互聯(lián)網(wǎng)技術的發(fā)展,網(wǎng)絡上面的信息越來越煩雜,信息量越來越大。面對著網(wǎng)絡上面的海量數(shù)據(jù),想要從中尋找到自己想要的信息,也變得困難起來。為了解決互聯(lián)網(wǎng)用戶信息檢索的迫切需要,搜索引擎應運而生。我們常用的搜索引擎如谷歌、百度等叫做通用搜索引擎,用戶可以通過輸入關鍵詞在網(wǎng)絡中查詢到擁有該關鍵詞的信息。但是通用搜索引擎的搜索結(jié)果缺乏針對性,搜索結(jié)果多但是有用信息少。為了為用戶提供更好的更有效率的檢索體驗,垂直搜索引擎應運而生。垂直搜索引擎是針對特定需求的用戶執(zhí)行搜索功能的搜索引擎,它的查詢效率更高,查詢效果更好。垂直搜索引擎是專門針對于某一領域的搜索引擎,查詢結(jié)果都是在該領域中包含搜索關鍵字的信息,為檢索用戶節(jié)省了在通用搜索引擎中篩選無關信息所浪費的大量時間,F(xiàn)如今,在互聯(lián)網(wǎng)上的垂直搜索引擎五花八門,其中針對音樂、圖片、新聞和購物的垂直搜索引擎比較多,針對美食的比較少。但是隨著現(xiàn)如今人們的生活水平的提高,卻有越來越多的人不知道每天要吃什么、去哪里吃、如何健康的吃,一個面向美食的垂直搜索引擎能夠幫助人們解決這些問題。面向美食的垂直搜索引擎能夠幫用戶篩選互聯(lián)網(wǎng)中的與美食無關的信息,用戶即使輸入一個看似與美食無關的詞語,也可以在其中檢索到各種該詞語與美食相關的推薦、菜譜和餐廳等信息,如搜索“冬天”,將查詢到各種與冬天有關的美食信息。本文將介紹一個針對于美食領域的垂直搜索引擎的研究與實現(xiàn)的全過程。其中包括對網(wǎng)絡數(shù)據(jù)的獲取和對獲取數(shù)據(jù)的處理、對索引的研究以及最后對垂直搜索引擎系統(tǒng)的設計與實現(xiàn)。在數(shù)據(jù)的獲取和處理中,將使用Heritrix制作網(wǎng)絡爬蟲爬取互聯(lián)網(wǎng)中的數(shù)據(jù),Heritrix是一個純由Java開發(fā)的、開源的Web網(wǎng)絡爬蟲,用戶可以使用它從網(wǎng)絡上抓取想要的資源[1]。然后使用正則表達式和HTMLParser提取網(wǎng)頁內(nèi)容,通過ICTCLAS和IKAnalyzer進行中文分詞的研究,之后還要進行去重、詞頻統(tǒng)計和排序等數(shù)據(jù)的研究和處理。在索引的創(chuàng)建方面,需要研究Lucene和Solr,Solr是在Lucene的基礎上對Lucene的進一步封裝,能夠提高索引的效率。在最后的系統(tǒng)創(chuàng)建部分,將使用Spring+Struts+Hibernate框架,在數(shù)據(jù)庫方面,將使用開源的關系型數(shù)據(jù)庫MySQL。
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:
第 2 章 美食數(shù)據(jù)的獲取和處理2.2 Heritrix 的主題抓取策略和優(yōu)化Heritrix 是一個開源的、可擴展的網(wǎng)絡爬蟲項目,用戶可以使用它從網(wǎng)絡上爬取想要的資源。Heritrix 是由 Java 開發(fā)的一個 Java 的開源框架,它通過深度遍歷網(wǎng)站資源,分析網(wǎng)站中每一個有效的 URI,將網(wǎng)站內(nèi)容抓取到本地。Heritrix的架構(gòu)如圖 2.4 所示。
第 2 章 美食數(shù)據(jù)的獲取和處理(2)取消 robot.txt 的限制很多網(wǎng)站會創(chuàng)建一個 robot.txt 文件,在文件中指明不想被訪問的部分。如果在爬取過程中一一訪問這些文件,將會大大影響抓取的效率,甚至導致整個抓取任務的失敗。為了提高抓取的效率,可以在 Heritrix 的 PreconditionEnforcer 中的considerRobotsPreconditions 方法下設置返回值為 false,這樣在抓取過程中將不會考慮 robot.txt 文件。圖 2.5 和圖 2.6 分別是以美食天下為例在 Heritrix 優(yōu)化前與優(yōu)化后的爬取結(jié)果。從圖中可以看出,爬取時間有了很大的變化。
優(yōu)化后爬取報告
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:
第 2 章 美食數(shù)據(jù)的獲取和處理2.2 Heritrix 的主題抓取策略和優(yōu)化Heritrix 是一個開源的、可擴展的網(wǎng)絡爬蟲項目,用戶可以使用它從網(wǎng)絡上爬取想要的資源。Heritrix 是由 Java 開發(fā)的一個 Java 的開源框架,它通過深度遍歷網(wǎng)站資源,分析網(wǎng)站中每一個有效的 URI,將網(wǎng)站內(nèi)容抓取到本地。Heritrix的架構(gòu)如圖 2.4 所示。
第 2 章 美食數(shù)據(jù)的獲取和處理(2)取消 robot.txt 的限制很多網(wǎng)站會創(chuàng)建一個 robot.txt 文件,在文件中指明不想被訪問的部分。如果在爬取過程中一一訪問這些文件,將會大大影響抓取的效率,甚至導致整個抓取任務的失敗。為了提高抓取的效率,可以在 Heritrix 的 PreconditionEnforcer 中的considerRobotsPreconditions 方法下設置返回值為 false,這樣在抓取過程中將不會考慮 robot.txt 文件。圖 2.5 和圖 2.6 分別是以美食天下為例在 Heritrix 優(yōu)化前與優(yōu)化后的爬取結(jié)果。從圖中可以看出,爬取時間有了很大的變化。
優(yōu)化后爬取報告
【參考文獻】
相關期刊論文 前7條
1 嚴磊;馬勇男;丁賓;鄭濤;;垂直搜索引擎之主題網(wǎng)絡爬蟲[J];福建電腦;2013年03期
2 顧t
本文編號:2811536
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2811536.html
最近更新
教材專著