天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于用戶興趣模型的個(gè)性化搜索系統(tǒng)的研究

發(fā)布時(shí)間:2019-02-23 15:35
【摘要】:快速發(fā)展的互聯(lián)網(wǎng)在給人們提供大量信息的同時(shí),也不可避免地讓用戶陷入難以快速獲取有價(jià)值信息的窘態(tài)。搜索引擎已經(jīng)成為獲取網(wǎng)絡(luò)資源的一種主要方式,但是在實(shí)際應(yīng)用中,即使是不同背景和需求的用戶,在輸入相同查詢詞的時(shí)候也會(huì)得到相同的結(jié)果,甚至是相同的網(wǎng)頁排序,因此基于用戶興趣偏好的個(gè)性化搜索服務(wù)是搜索引擎今后發(fā)展的一個(gè)方向。 本文通過對個(gè)性化搜索引擎工作原理和基本技術(shù)的研究和探討,構(gòu)建了一個(gè)簡單的基于用戶興趣模型的個(gè)性化搜索原型系統(tǒng)。該系統(tǒng)首先獲取用戶瀏覽歷史記錄,并對其進(jìn)行預(yù)處理、中文分詞和基于TF-IDF算法的特征詞詞頻統(tǒng)計(jì),利用空間向量表示方法來選取權(quán)重最高的N個(gè)關(guān)鍵詞建立用戶的興趣模型。 然后,系統(tǒng)采用余弦公式計(jì)算最初的搜索結(jié)果與該模型的相似度,來對搜索結(jié)果進(jìn)行過濾,去除用戶不感興趣的信息,從而挑選出與用戶查詢匹配度高的網(wǎng)頁,保證了網(wǎng)頁內(nèi)容的相關(guān)度;并通過分析用戶對搜索結(jié)果的點(diǎn)擊行為,提取搜索結(jié)果與查詢關(guān)鍵詞的相關(guān)性,進(jìn)而增加相關(guān)結(jié)果頁面的權(quán)重,降低不相關(guān)頁面的權(quán)重;整合以上兩個(gè)階段的相關(guān)度評分結(jié)果,根據(jù)相關(guān)度大小對搜索結(jié)果進(jìn)行過濾和重新排序,實(shí)現(xiàn)了面向單用戶的個(gè)性化搜索。 最后,通過對用戶瀏覽數(shù)據(jù)和點(diǎn)擊行為的挖掘,借助于全文搜索引擎Lucene和開源搜索框架Solr,設(shè)計(jì)并實(shí)現(xiàn)了個(gè)性化搜索系統(tǒng)。實(shí)驗(yàn)過程中與未實(shí)現(xiàn)個(gè)性化搜索的系統(tǒng)作對比,實(shí)驗(yàn)結(jié)果證明:基于用戶興趣模型的個(gè)性化搜索會(huì)根據(jù)用戶興趣模型和用戶點(diǎn)擊行為對搜索結(jié)果進(jìn)行過濾和重排序,搜索結(jié)果符合用戶的興趣偏好,有效提高搜索引擎的查準(zhǔn)率和用戶使用滿意度。
[Abstract]:The rapid development of the Internet not only provides people with a lot of information, but also inevitably makes it difficult for users to obtain valuable information quickly. Search engine has become one of the main ways to obtain network resources, but in practical applications, even users with different backgrounds and needs will get the same results when entering the same query words, even the same ranking of web pages. Therefore, personalized search service based on user interest preference is a direction of search engine development in the future. Based on the research and discussion of the working principle and basic technology of personalized search engine, a simple personalized search prototype system based on user interest model is constructed in this paper. The system firstly acquires the user's browsing history record and preprocesses it. The Chinese word segmentation and the feature word frequency statistics based on TF-IDF algorithm. The interest model of users is established by using spatial vector representation method to select N keywords with the highest weight. Then, the system uses cosine formula to calculate the similarity between the initial search results and the model, to filter the search results, remove the information that users are not interested in, and then select the web pages with high matching degree with the users. Ensure the relevance of web content; By analyzing the user's click behavior on the search results, the relevance between the search results and the query keywords is extracted, and then the weight of the relevant result pages is increased, and the weight of the unrelated pages is reduced. Integrating the results of the above two stages, filtering and reordering the search results according to the degree of relevance, the personalized search for single user is realized. Finally, a personalized search system is designed and implemented with the help of full-text search engine (Lucene) and open source search framework (Solr,) by mining the user's browsing data and clicking behavior. The experiment results show that the personalized search based on user interest model will filter and reorder the search results according to user interest model and user click behavior. The search results accord with the user's interest preference, and improve the precision and user satisfaction of search engine effectively.
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 閆炳寬;;基于點(diǎn)擊技術(shù)的用戶興趣數(shù)據(jù)挖掘研究[J];電腦知識(shí)與技術(shù);2009年33期

2 曲桂英;馮麗娜;張志嵩;張志海;;基于用戶興趣模型的個(gè)性化信息服務(wù)系統(tǒng)研究[J];哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

3 林古立;彭宏;馬千里;韋佳;覃姜維;;一種基于關(guān)鍵詞的網(wǎng)頁搜索結(jié)果多樣化方法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期

4 馬千里;林古立;;基于聚類和用戶點(diǎn)擊的在線多樣化排序算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年12期

5 陳善雄;彭茂玲;余建橋;;基于分類規(guī)則信息熵的報(bào)文處理算法[J];計(jì)算機(jī)工程;2010年08期

6 陳一峰;趙恒凱;余小清;萬旺根;;基于本體的用戶興趣模型構(gòu)建研究[J];計(jì)算機(jī)工程;2010年21期

7 劉徽;黃寬娜;余建橋;;一種Deep Web爬蟲爬行策略[J];計(jì)算機(jī)工程;2012年11期

8 方樹峰;;基于用戶反饋的PageRank改進(jìn)算法[J];計(jì)算技術(shù)與自動(dòng)化;2012年01期

9 沈盈洪;豐翔龍;黃榮游;;基于網(wǎng)頁聚類的搜索結(jié)果優(yōu)化算法研究[J];計(jì)算機(jī)應(yīng)用;2010年S1期

10 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計(jì)算機(jī)應(yīng)用與軟件;2010年01期

相關(guān)會(huì)議論文 前2條

1 吳曉;李丹寧;林潔;冀肖榆;李丹;;個(gè)性化搜索引擎中用戶興趣模型的研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

2 藺繼國;徐錫山;;一種基于用戶點(diǎn)擊數(shù)據(jù)的個(gè)性化PageRank算法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)碩士學(xué)位論文 前10條

1 崔頃頃;基于個(gè)性化搜索的系統(tǒng)研究與設(shè)計(jì)[D];北京交通大學(xué);2011年

2 曾凡興;基于用戶興趣和瀏覽行為的個(gè)性化推薦技術(shù)研究[D];江西農(nóng)業(yè)大學(xué);2011年

3 王宇;基于搜索歷史的用戶興趣建模[D];復(fù)旦大學(xué);2011年

4 張為;公眾論壇信息實(shí)時(shí)檢索的研究與實(shí)現(xiàn)[D];南京理工大學(xué);2012年

5 代旭峰;基于用戶興趣模型的搜索引擎結(jié)果推薦系統(tǒng)[D];復(fù)旦大學(xué);2011年

6 薛凌鴻;基于Flex的多媒體智能答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

7 李婭;個(gè)性化智能元搜索引擎模型研究[D];西南大學(xué);2006年

8 劉忠寶;個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];北京工商大學(xué);2007年

9 李家琪;一種基于信息分布的元搜索結(jié)果后處理方法研究[D];北京郵電大學(xué);2008年

10 趙文華;基于用戶的個(gè)性化搜索引擎研究[D];首都師范大學(xué);2008年

,

本文編號(hào):2428960

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2428960.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f6b2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com