天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于協(xié)同過濾的個性化垂直搜索引擎的研究與設(shè)計

發(fā)布時間:2020-10-13 18:18
   網(wǎng)絡(luò)環(huán)境的變化和互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展帶來的信息爆炸,使得實(shí)現(xiàn)對某一專題領(lǐng)域信息精確查找的垂直搜索引擎獲得迅速發(fā)展。當(dāng)下大部分搜索引擎缺乏主動性,在搜索的過程中不能考慮用戶的興趣,不能快速精準(zhǔn)的查找用戶所關(guān)心的信息。本文設(shè)計并實(shí)現(xiàn)在垂直搜索引擎環(huán)境中提供個性化服務(wù)的系統(tǒng)。并使用軟件工程方法對系統(tǒng)進(jìn)行需求分析,系統(tǒng)設(shè)計,完成系統(tǒng)的實(shí)現(xiàn)。 首先研究當(dāng)下垂直搜索引擎的發(fā)展前景,分析傳統(tǒng)搜索引擎三個核心組成部分的功能原理,并結(jié)合當(dāng)下的網(wǎng)絡(luò)環(huán)境分析了用戶的需求。并確定系統(tǒng)的開發(fā)的目標(biāo),設(shè)計了系統(tǒng)的整體架構(gòu),進(jìn)而確定系統(tǒng)的主要功能,用戶基本信息與用戶興趣管理,專題內(nèi)容的抓取,基本搜索功能與相關(guān)信息的推薦功能,并確定了系統(tǒng)中關(guān)鍵數(shù)據(jù)流的轉(zhuǎn)換。同時抽象出系統(tǒng)的角色與用例,對用例進(jìn)行詳細(xì)的說明。 然后探討了基于協(xié)同過濾的推薦引擎的基本原理和方法,并基于協(xié)同過濾思想,結(jié)合中文分詞建立基于興趣的用戶模型,通過聚類算法對興趣處理生成用戶興趣類別,并根據(jù)推薦內(nèi)容重新設(shè)計了Lucene提供的搜索結(jié)果排序評分算法。將推薦系統(tǒng)整合到垂直搜索引擎中,實(shí)現(xiàn)個性化搜索,從而達(dá)到提高信息的查找精確率的目的。 考慮到實(shí)現(xiàn)協(xié)同過濾推薦用戶個性化內(nèi)容的用戶模型設(shè)計,在系統(tǒng)設(shè)計部分對所需要存儲的數(shù)據(jù)設(shè)計了的數(shù)據(jù)庫表。分析搜索引擎的工作原理、關(guān)鍵技術(shù)和系統(tǒng)架構(gòu)的研究,設(shè)計了基于協(xié)同過濾技術(shù)的搜索引擎框架。 最后分析當(dāng)下開源框架Lucene、Nutch、Mahout、IkAnalyzer,整合現(xiàn)有資源做系統(tǒng)原型,提高中文環(huán)境下的搜索結(jié)果的準(zhǔn)確性,通過研究和分析網(wǎng)絡(luò)爬蟲的工作原理和中文分詞技術(shù),實(shí)現(xiàn)對專題信息的抓取,修改開源項(xiàng)目中部分接口,實(shí)現(xiàn)本文所設(shè)計的基于協(xié)同過濾的個性化垂直搜索引擎,并對系統(tǒng)整個系統(tǒng)進(jìn)行測試。
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP391.3
【部分圖文】:

搜索引擎,興趣,網(wǎng)頁,排序策略


所以如果要快速的搜索到更客觀和體現(xiàn)不同用戶需求的內(nèi)容,必須設(shè)計專業(yè)化、直的非商業(yè)性的搜索引擎。不同類型的用戶有各種不同的興趣,有各自關(guān)注的資訊,何兼顧將興趣兼顧到信息的搜索領(lǐng)域中,垂直搜索的研發(fā)與實(shí)現(xiàn)成為研究的熱點(diǎn),并漸在行搜索引擎市場占據(jù)一定的份額,Web 搜索將日益垂直化和個性化[3]。1.2 搜索引擎技術(shù)綜述信息的檢索的過程如圖 1.1,首先使用爬蟲對網(wǎng)絡(luò)資源進(jìn)行遍歷,將這些資源下載本地保存,并對這些資源進(jìn)行預(yù)處理,比如為網(wǎng)頁加文件編號,形成所有用戶可能檢的信息資源,文本庫,并對文本庫的進(jìn)行處理建立文本模型。然后根據(jù)文本模型建立引,以加快信息檢索的速度[4]。搜索的實(shí)現(xiàn),在提供了搜索內(nèi)容的前提下,搜索引擎負(fù)分析搜索關(guān)鍵詞,并通過索引查找對應(yīng)的網(wǎng)頁,所有返回的搜索結(jié)果需要根據(jù)一定的濾規(guī)則或者排序策略返回給終端用戶。本節(jié)將分別介紹用于實(shí)現(xiàn)以上功能的關(guān)鍵模塊。

管理模塊,功能模塊,用戶信息管理


圖 2.1 個性化搜索工作流程系統(tǒng)模塊劃分把整個系統(tǒng)分成兩個大的功能模塊實(shí)現(xiàn),用戶信息管理模塊與系管理模塊的各個功能模塊的劃分如圖 2.2 所示。顯示給用戶的頁面結(jié)果趣向量

模塊劃分


.用戶管理模塊。用于提供用戶注冊的功能,管理用戶安全的登陸與退出,并提系統(tǒng)反饋個人的興趣信息;.系統(tǒng)查詢模塊。為系統(tǒng)后臺將用戶相關(guān)信息轉(zhuǎn)換成用戶興趣向量提供接口,進(jìn)理;.系統(tǒng)管理模塊。維護(hù)系統(tǒng)正常運(yùn)行的必要功能,查看系統(tǒng)的運(yùn)行狀態(tài)等。統(tǒng)的另一個是模塊是實(shí)現(xiàn)本系統(tǒng)核心功能的檢索模塊,具體的模塊劃分如圖 2含系統(tǒng)四大核心功能。
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 任麗蕓;楊武;唐蓉;;搜索引擎網(wǎng)頁排序算法研究綜述[J];電腦與電信;2010年05期

2 羅武;方逵;朱興輝;;網(wǎng)絡(luò)搜索引擎排序算法研究進(jìn)展[J];湖南農(nóng)業(yè)科學(xué);2010年07期

3 邢春曉;高鳳榮;戰(zhàn)思南;周立柱;;適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J];計算機(jī)研究與發(fā)展;2007年02期

4 李華,何茜,吳中福;基于Web的個性化學(xué)習(xí)系統(tǒng)研究[J];計算機(jī)工程與應(yīng)用;2002年13期

5 曲紅亭,申瑞民;基于數(shù)據(jù)挖掘的個性化學(xué)習(xí)導(dǎo)航系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)工程;2003年08期

6 周登朋;謝康林;;Lucene搜索引擎[J];計算機(jī)工程;2007年18期

7 汪濤,樊孝忠;主題爬蟲的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)應(yīng)用;2004年S1期

8 房志峰;;中文搜索引擎中的分詞技術(shù)研究[J];科學(xué)技術(shù)與工程;2008年09期

9 曾春,邢春曉,周立柱;個性化服務(wù)技術(shù)綜述[J];軟件學(xué)報;2002年10期

10 鄧愛林,朱揚(yáng)勇,施伯樂;基于項(xiàng)目評分預(yù)測的協(xié)同過濾推薦算法[J];軟件學(xué)報;2003年09期


相關(guān)碩士學(xué)位論文 前2條

1 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年

2 袁先虎;基于混合用戶模型的協(xié)同過濾推薦算法研究[D];重慶大學(xué);2010年



本文編號:2839529

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2839529.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17423***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com