【摘要】:隨著電子商務(wù)的發(fā)展,購物網(wǎng)站上的商品日益增加,用戶利用搜索引擎搜索商品變得越來越困難。因此,如何根據(jù)用戶自身特征及其興趣和偏好,如何根據(jù)用戶的信息和商品的信息契合度來影響搜索的結(jié)果,讓用戶快速找到自己想要得商品成為迫切需要解決的問題。基于上述背景,本文設(shè)計實現(xiàn)了一個個性化搜索引擎。 個性化搜索主要有基于查詢改進的個性化搜索引擎、個性化網(wǎng)頁權(quán)重的個性化搜索引擎和個性化多元搜索引擎等,用戶特征收集方法也有三種:服務(wù)器端挖掘、用戶主動提供和系統(tǒng)被動學(xué)習(xí)。本文評估了這些方案的優(yōu)缺點,結(jié)合淘寶公司現(xiàn)有的資源,選擇了基于個性化權(quán)重的個性化搜索方案,在用戶的特征提取方面采用服務(wù)端挖掘的方法。系統(tǒng)從三個維度進行了個性化,分別是用戶的性別、用戶的價格偏好和用戶對商品本身屬性的選擇傾向,三者同時作用影響商品權(quán)重的實現(xiàn)方案。系統(tǒng)需要做的主要工作是用戶性別、價格偏好、膚質(zhì)、服裝偏好等數(shù)據(jù)的挖掘,搜索關(guān)鍵字分析,商品屬性提取,添加個性化索引字段和相關(guān)性計算的個性化加權(quán)。用戶性別預(yù)測采用的是邏輯回歸模型,價格分檔采用k-means聚簇和高斯分布模型相結(jié)合的方式實現(xiàn)。由于數(shù)據(jù)量較大,系統(tǒng)很多工作都基于hadoop平臺開發(fā)。個性化特征加權(quán)將采用增加個性化修正參數(shù)的方案,而不會改變其他特征的計算。實際使用表明,本文設(shè)計實現(xiàn)的個性化搜索系統(tǒng)能夠較為精確的了解用戶的意圖,為商品搜索帶來了便利。它能夠讓用戶更快的找到自己想要的東西,節(jié)約了瀏覽查找的過程,增加了用戶體驗,讓搜索更加智能化。 本文首先介紹了個性化搜索引擎的開發(fā)背景,接著介紹了實現(xiàn)該系統(tǒng)所用的相關(guān)的技術(shù),之后在分析系統(tǒng)的需求的基礎(chǔ)上設(shè)計出系統(tǒng)的整體架構(gòu)和系統(tǒng)各個模塊的劃分,并逐一闡述了各個模塊的功能和設(shè)計。最后根據(jù)各模塊的設(shè)計給出詳細的系統(tǒng)實現(xiàn)。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前8條
1 蔣慶豐;李梓;程曉旭;;K-Means聚類算法研究及圖形演示的實現(xiàn)[J];信息技術(shù);2010年03期
2 譚瓊;李曉黎;史忠植;;一種實現(xiàn)搜索引擎?zhèn)性化服務(wù)的方法[J];計算機科學(xué);2002年01期
3 魯婧婧;張晉昕;袁向東;駱福添;古萍;張熙;薛允蓮;;歐氏距離的加權(quán)處理對K-means法聚類效果的改進[J];中國醫(yī)院統(tǒng)計;2008年01期
4 李樹青;崔北亮;;基于個性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述[J];情報雜志;2007年08期
5 曾春,邢春曉,周立柱;基于內(nèi)容過濾的個性化搜索算法[J];軟件學(xué)報;2003年05期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報;2008年01期
7 張初兵;高康;楊貴軍;;判別分析與Logistic回歸的模擬比較[J];統(tǒng)計與信息論壇;2010年01期
8 胡吉明;;個性化搜索引擎中的用戶興趣提取技術(shù)[J];圖書館學(xué)刊;2006年04期
相關(guān)碩士學(xué)位論文 前2條
1 黃衛(wèi)平;個性化搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2011年
2 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
,
本文編號:
2524092
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2524092.html