基于Nutch的移動WEB搜索系統(tǒng)的研究與實現(xiàn)
本文選題:移動WEB 切入點:搜索引擎 出處:《北京郵電大學》2013年碩士論文
【摘要】:隨著3G時代的到來,移動電話,便攜計算機等移動設(shè)備的普及,越來越多的用戶使用移動終端就能夠便捷的訪問網(wǎng)絡(luò)。這樣用戶對于個性化和智能化搜索引擎的需求更加明顯,F(xiàn)有的移動終端的搜索引擎,大都是直接把本地搜索引擎轉(zhuǎn)移到移動終端。這些移動搜索引擎僅僅利用純粹的文本相關(guān)度進行搜索,甚至把用戶輸入的位置信息也當做普通的文本關(guān)鍵字,并沒有很好的和用戶地理位置等移動空間信息結(jié)合起來,而人們在使用移動設(shè)備搜索時大多數(shù)需求都與空間位置密切相關(guān)。移動用戶進行搜索查詢時,一般希望搜索引擎不僅可以提供與查詢內(nèi)容密切相關(guān)的網(wǎng)頁,而且可以提供與用戶所在位置空間距離相近的網(wǎng)頁。因此,現(xiàn)有的移動搜索引擎很難使用戶獲得理想的查詢結(jié)果。 本文針對移動搜索引擎所面臨的問題入手,研究同時基于文本相關(guān)性搜索和地理位置相近性搜索的解決方案,提出了一個基于Nutch的移動WEB搜索系統(tǒng)的實現(xiàn)方案,搭建了一個基于位置和關(guān)鍵字雙重搜索的移動WEB搜索系統(tǒng),實現(xiàn)了位置相關(guān)的空間搜索。根據(jù)網(wǎng)頁所描述內(nèi)容的地理位置信息對網(wǎng)頁進行地理標記,該方案可以搜索到與用戶所在位置相關(guān)的網(wǎng)頁,可以用于解決移動用戶搜索附近相關(guān)性結(jié)果的難題。通過使用Lucene和R-tree的混合索引,系統(tǒng)實現(xiàn)了對搜索排序結(jié)果的有效優(yōu)化,驗證了混合索引結(jié)構(gòu)能夠更快速的為用戶提供綜合文本相關(guān)和距離相近性的結(jié)果。 本文闡述了整套系統(tǒng)的整體框架結(jié)構(gòu)設(shè)計和各個主要模塊的實現(xiàn)細節(jié),詳細介紹了網(wǎng)頁預(yù)處理模塊,索引建立模塊和搜索模塊的各個關(guān)鍵技術(shù),包括對網(wǎng)頁進行地理標記,基于文本聚類的混合索引插入算法,以及節(jié)點優(yōu)先隊列的搜索算法。最后,在功能方面和性能方面對系統(tǒng)進行驗證測試。測試結(jié)果表明,移動WEB搜索系統(tǒng)具備了綜合地理位置和文本信息的雙重搜索功能,并具備較好的性能。
[Abstract]:With the arrival of the 3G era, the popularity of mobile phones, portable computers and other mobile devices, more and more users use mobile terminal can easily access the network. So the user for intelligent and personalized search engine needs more obvious. The mobile terminal of the existing search engines, are directly transferred from the local search engine mobile terminal. These mobile search engines use only pure text of the search, and even the location information of the user input as a normal text keyword, and not a very good geographical position and user mobile spatial information together, and people in the use of mobile devices to search the most requirements are closely related to the spatial position. Mobile users search query, search engines can not only provide general hope is closely related with the query content, and can provide It is very difficult for the existing mobile search engine to get the desired result of the query by the existing mobile search engine.
According to the mobile search engine facing problems, at the same time based on text search and Study on correlation between geographical proximity search solutions, proposed a mobile WEB based on Nutch search system, set up a mobile search system WEB position and double keyword search based implementation of space position the search. According to Geotag Web Geographic Information Page describes the content of the program can search and user location of related web pages can be used to solve the problem of mobile user search results. By mixing near correlation index using Lucene and R-tree, the system realizes the effective optimization of search results. Verify the hybrid index structure can more quickly provide users with comprehensive text and distance similar results.
This paper describes the implementation details of main module structure of the overall framework of the whole system design and each of the details of the web page preprocessing module, each key indexing module and search module, including Geotag ", mixed text clustering index insertion algorithm based on search algorithm and node priority queue. Finally, to test the system in function and performance. The test results show that the WEB mobile search system with the dual search function comprehensive geographic location and text information, and have a better performance.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3;TN929.5
【參考文獻】
相關(guān)期刊論文 前6條
1 高紅;黃德根;楊元生;;漢語自動分詞中中文地名識別[J];大連理工大學學報;2006年04期
2 袁琦;;移動搜索技術(shù)與業(yè)務(wù)發(fā)展研究[J];電信網(wǎng)技術(shù);2007年04期
3 皋磊,任立紅,丁永生;基于WAP的移動電子商務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2003年01期
4 張桂剛;;一種類自然語言驅(qū)動的語義服務(wù)搜索方法[J];計算機科學;2009年07期
5 華秀麗;朱巧明;李培峰;;語義分析與詞頻統(tǒng)計相結(jié)合的中文文本相似度量方法研究[J];計算機應(yīng)用研究;2012年03期
6 錢晶;張杰;張濤;;基于最大熵的漢語人名地名識別方法研究[J];小型微型計算機系統(tǒng);2006年09期
相關(guān)碩士學位論文 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年
2 楊曉東;中文命名實體識別及若干相關(guān)問題的研究[D];江蘇大學;2010年
3 史磊峰;移動垂直搜索系統(tǒng)的研究[D];北京交通大學;2010年
4 李景;基于DOM樹信息抽取的移動網(wǎng)站開發(fā)研究[D];中國海洋大學;2011年
5 陳鎮(zhèn)虎;面向空間數(shù)據(jù)庫引擎的空間索引系統(tǒng)[D];北京工業(yè)大學;2002年
6 陳敏;基于R-樹空間索引的優(yōu)化研究與應(yīng)用[D];福州大學;2006年
7 江慧娜;中文搜索引擎的關(guān)鍵技術(shù)研究[D];北京化工大學;2007年
8 牟力科;Web中文信息抽取技術(shù)與命名實體識別方法的研究[D];西北大學;2008年
9 楊滋榮;基于Web數(shù)據(jù)挖掘的面向領(lǐng)域高性能信息檢索研究[D];貴州大學;2008年
10 姚林濤;基于Lucene的Web搜索引擎實現(xiàn)[D];西安電子科技大學;2008年
,本文編號:1693470
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1693470.html