在線文檔推薦算法的研究與改進(jìn)
本文關(guān)鍵詞:在線文檔推薦算法的研究與改進(jìn)
更多相關(guān)文章: 信息過(guò)載 數(shù)據(jù)清洗 協(xié)同過(guò)濾 推薦系統(tǒng)
【摘要】:隨著我國(guó)網(wǎng)民規(guī)模接近7億,互網(wǎng)聯(lián)頁(yè)面數(shù)突破2000億,信息爆炸般增長(zhǎng),從中獲取有效信息也變得愈加困難。因此也有了許多個(gè)性化解決方案來(lái)對(duì)互聯(lián)網(wǎng)信息進(jìn)行篩選提供給人們符合所需的信息。搜索引擎和推薦系統(tǒng)便是兩種獲取信息的有效手段,前者是用戶主動(dòng)查詢搜索所需內(nèi)容,但常受限于查詢格式或者內(nèi)容完整性,并不容易找到所需內(nèi)容,尤其是難以查詢視頻音頻等,且智能程度較低。而另一種方式,推薦系統(tǒng)便可以發(fā)揮優(yōu)勢(shì),通過(guò)分析海量數(shù)據(jù)信息,分析歷史行為信息和用戶之間的關(guān)系等,對(duì)用戶進(jìn)行推薦,免去用戶搜索的麻煩。數(shù)據(jù)是推薦系統(tǒng)的基礎(chǔ)。從數(shù)據(jù)中進(jìn)行分析才能得到有價(jià)值的信息,尋找到其中隱藏的關(guān)系。但數(shù)據(jù)需要保證質(zhì)量,由此引出數(shù)據(jù)的清洗環(huán)節(jié)。數(shù)據(jù)清洗指將原有數(shù)據(jù)如日志文件等按規(guī)則進(jìn)行預(yù)處理,使數(shù)據(jù)達(dá)到完整性一致性準(zhǔn)確性等要求。數(shù)據(jù)清洗保障了推薦算法的準(zhǔn)確性。推薦算法是推薦系統(tǒng)的核心。傳統(tǒng)推薦算法在推薦系統(tǒng)中依舊發(fā)揮著砥柱的作用,但是對(duì)于特定數(shù)據(jù)特定系統(tǒng),其效果并不總是理想。針對(duì)特定數(shù)據(jù)進(jìn)行分析,在原算法基礎(chǔ)上進(jìn)行創(chuàng)新,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析,優(yōu)化改進(jìn),往往能獲得更好的效果。綜上所述,本文針對(duì)華為在線文檔推薦系統(tǒng)的工作主要如下:1.首先采集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析。然后制定數(shù)據(jù)清洗規(guī)則,按照清洗流程兌出去進(jìn)行了預(yù)處理。每天新數(shù)據(jù)到來(lái)時(shí)定時(shí)啟動(dòng)清洗程序,實(shí)現(xiàn)清洗自動(dòng)化。2.分析已有的推薦算法并做出改進(jìn)。本文采用了協(xié)同過(guò)濾算法并在此基礎(chǔ)上改進(jìn)算法,針對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,用轉(zhuǎn)移概率矩陣對(duì)原相似度矩陣進(jìn)行替代,并分析歷史瀏覽信息中的文檔類別間的跳轉(zhuǎn)關(guān)系,在推薦過(guò)程中根據(jù)文檔類別間跳轉(zhuǎn)比例產(chǎn)生推薦列表。最后結(jié)合熱點(diǎn)推薦,彌補(bǔ)冷啟動(dòng)的缺點(diǎn)。改進(jìn)后的算法的各項(xiàng)評(píng)價(jià)指標(biāo)提升明顯。3.將數(shù)據(jù)處理和推薦系統(tǒng)進(jìn)行整合,實(shí)現(xiàn)華為在線文檔推薦系統(tǒng),并以網(wǎng)站形式進(jìn)行展示。網(wǎng)站采用Struts2+Mysql+redis形式,框架為Struts2,其優(yōu)點(diǎn)為層次清晰,維護(hù)效率高。數(shù)據(jù)庫(kù)采用了關(guān)系型數(shù)據(jù)庫(kù)Mysql和內(nèi)存數(shù)據(jù)庫(kù)redis,充分利用前者簡(jiǎn)潔高效的特點(diǎn)和后者快速查詢的優(yōu)勢(shì)。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王銘軍;潘巧明;劉真;陳為;;可視數(shù)據(jù)清洗綜述[J];中國(guó)圖象圖形學(xué)報(bào);2015年04期
2 宋金玉;陳爽;郭大鵬;王內(nèi)蒙;;數(shù)據(jù)質(zhì)量及數(shù)據(jù)清洗方法[J];指揮信息系統(tǒng)與技術(shù);2013年05期
3 高忠科;胡瀝丹;金寧德;;Markov transition probability-based network from time series for characterizing experimental two-phase flow[J];Chinese Physics B;2013年05期
4 朱郁筱;呂琳媛;;推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J];電子科技大學(xué)學(xué)報(bào);2012年02期
5 楊剛;顧宏斌;趙芷晴;;對(duì)基于J2EE的MVC模式視圖部分改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年03期
6 鄒燕飛;羅鴻偉;;基于Struts+Spring+Hibernate缺陷管理系統(tǒng)實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年02期
7 李世川;;Java連接MySQL解決方案[J];網(wǎng)絡(luò)與信息;2011年06期
8 悠虎;;如何向MySQL數(shù)據(jù)庫(kù)的表中錄入數(shù)據(jù)[J];網(wǎng)絡(luò)與信息;2010年06期
9 劉建國(guó);周濤;郭強(qiáng);汪秉宏;;個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2009年03期
10 武寶珠;梁聲灼;牛德雄;;基于Struts2+Spring+Hibernate架構(gòu)構(gòu)建Web應(yīng)用系統(tǒng)[J];計(jì)算機(jī)與現(xiàn)代化;2009年08期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 劉青文;基于協(xié)同過(guò)濾的推薦算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
2 冷亞軍;協(xié)同過(guò)濾技術(shù)及其在推薦系統(tǒng)中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2013年
3 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 楊暢;基于項(xiàng)目分類和用戶情景推薦的研究及應(yīng)用[D];重慶大學(xué);2012年
,本文編號(hào):1235719
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1235719.html