基于用戶模型的個(gè)性化網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)的研究與設(shè)計(jì)
發(fā)布時(shí)間:2020-07-08 07:44
【摘要】:本文提出了一種個(gè)性化的網(wǎng)絡(luò)文獻(xiàn)信息檢索系統(tǒng)的設(shè)計(jì)研究,通過收集用戶的基本信息和興趣信息,建立面向用戶興趣的新型個(gè)性化網(wǎng)絡(luò)信息服務(wù)系統(tǒng)。用戶的興趣模型可以說(shuō)是系統(tǒng)個(gè)性化實(shí)現(xiàn)的基礎(chǔ),搜索引擎、系統(tǒng)與搜索引擎的接口以及向量模型的匹配算法是系統(tǒng)個(gè)性化實(shí)現(xiàn)的根本,本文還就Web頁(yè)面的識(shí)別、聚類技術(shù)分別作了研究介紹。文中除了根據(jù)一定方法和原則建了一個(gè)用戶模型之外,還就目前比較先進(jìn)、智能的Agent、機(jī)器學(xué)習(xí)建模技術(shù)作了相關(guān)研究,最后本文還介紹了系統(tǒng)另外一個(gè)比較重要的功能——信息檢索主動(dòng)推送服務(wù)的實(shí)現(xiàn)。 系統(tǒng)個(gè)性化網(wǎng)絡(luò)文獻(xiàn)信息檢索服務(wù)的實(shí)現(xiàn)主要可以由以下五步進(jìn)行: 第一步,用戶在系統(tǒng)用戶界面的搜索框中輸入自己的關(guān)鍵詞或者詞組信息,然后向系統(tǒng)提交。 第二步,把第一步獲取到的關(guān)鍵詞通過系統(tǒng)的搜索引擎接口送到專門的搜索引擎,由它們執(zhí)行實(shí)際的搜索行為。同時(shí)通過抽取算法獲得結(jié)果文檔特征項(xiàng)。 第三步,把獲得的每一結(jié)果項(xiàng)的文檔向量,通過向量模型算法和用戶模型向量計(jì)算出相關(guān)度,并以相關(guān)度排序的方式,對(duì)文檔向量進(jìn)行保存。 第四步,結(jié)果顯示。在用戶界面,把符合用戶模型的結(jié)果,按照用戶設(shè)定的最大值和相關(guān)度由高到底的順序進(jìn)行顯示。 第五步,根據(jù)用戶的反饋行為,進(jìn)一步優(yōu)化用戶模型,調(diào)整相關(guān)項(xiàng)的權(quán)值和權(quán)值因子。 為了本文和系統(tǒng)目標(biāo)的實(shí)現(xiàn),論文以七章的內(nèi)容來(lái)展開討論研究: 第一章是緒論部分,從網(wǎng)絡(luò)信息作為我們現(xiàn)在獲取信息的主要途徑入 WP=77 手,討論我們目前獲取網(wǎng)絡(luò)信息的主要方式,以及在獲取網(wǎng)絡(luò)信息時(shí)面臨的問題,引出論文研究的背景。并就目前個(gè)性化網(wǎng)絡(luò)信息檢索服務(wù)產(chǎn)生的定義、背景以及現(xiàn)狀做了介紹。 個(gè)性化網(wǎng)絡(luò)信息檢索服務(wù),最直接的概念就是以“用戶為中心“的服務(wù)模式。既根據(jù)用戶提出的明確要求,用戶的興趣模型或通過用戶個(gè)性、習(xí)慣的分析在網(wǎng)絡(luò)上檢索,向用戶提供其可能需要的信息和服務(wù),也是培養(yǎng)個(gè)性,引導(dǎo)需求的服務(wù)。其根本就是尊重用戶,研究用戶的行為和習(xí)慣,為用戶選擇更為重要的資源,提供特色網(wǎng)絡(luò)信息檢索的服務(wù)。 第二章是對(duì)個(gè)性化網(wǎng)絡(luò)文獻(xiàn)檢索技術(shù)的研究。首先,本章介紹了個(gè)性化技術(shù)中所涉及到的一些個(gè)性化的概念、思想和個(gè)性化在本文研究中的特征。個(gè)性化就是使事物具有個(gè)性,或者使其個(gè)性凸現(xiàn);個(gè)性化的思想在本文中的含義就是以系統(tǒng)用戶為中心,提煉其興趣與偏好,以此為基礎(chǔ)把從網(wǎng)絡(luò)中檢索出來(lái)的信息被動(dòng)或主動(dòng)地呈現(xiàn)到用戶面前;個(gè)性化在系統(tǒng)中的基本特征是用戶需求至上、用戶描述文件(user profile)為基礎(chǔ)、以現(xiàn)有搜索引擎為工具、基于相關(guān)度的方法、自學(xué)習(xí)與信息主動(dòng)推送;個(gè)性化對(duì)社會(huì)服務(wù)業(yè)、信息化的發(fā)展具有深遠(yuǎn)意義。然后,本章還對(duì)網(wǎng)絡(luò)文獻(xiàn)的概念、特點(diǎn)、分類、檢索以及目前檢索面臨的一些問題作了介紹,這是研究個(gè)性化網(wǎng)絡(luò)文獻(xiàn)檢索必須要了解的前提知識(shí)。 第三章是論文的重點(diǎn),在這里主要研究了個(gè)性化檢索基于的基本理論和方法。這都是系統(tǒng)最終實(shí)現(xiàn)的支柱。由于系統(tǒng)的個(gè)性化檢索最終的數(shù)據(jù)源還是搜索引擎中的數(shù)據(jù)庫(kù),因此我們就要了解搜索引擎的一些基本知識(shí),搜索引擎是一個(gè)網(wǎng)絡(luò)信息查找工具,它一般是由搜集器、檢索器、管理器三個(gè)部分組成,各部分為信息搜索完成不同的功能,它的技術(shù)基礎(chǔ)主要包括HTTP協(xié)議、Robot技術(shù)、信息檢索技術(shù)這三部分;既然系統(tǒng)最終的提問要提交到搜索引擎,那這里就有一個(gè)系統(tǒng)與搜索引擎的接口的問 WP=78 題,本章以Google搜索引擎為代表,根據(jù)Google搜索引擎的搜索和結(jié)果網(wǎng)頁(yè)界面的Html語(yǔ)言特征,給出了系統(tǒng)與Google接口實(shí)現(xiàn)原理的偽代碼;用戶興趣模型也是系統(tǒng)個(gè)性化實(shí)現(xiàn)的前提,本章基于用戶的基本信息和興趣建立了一個(gè)簡(jiǎn)單、易行、實(shí)用的用戶模型,并介紹了用戶模型的體系結(jié)構(gòu)和實(shí)現(xiàn)結(jié)構(gòu);向量空間模型是個(gè)性化信息的過濾算法,通過計(jì)算出文檔特征向量和用戶模型向量的相關(guān)度,對(duì)搜索引擎的搜索結(jié)果重新過濾、排序,實(shí)現(xiàn)個(gè)性化信息服務(wù);本章最后還就Web頁(yè)面的識(shí)別、特征提取以及文檔特征向量的表示,簡(jiǎn)單的聚類技術(shù)作了介紹。 第四章也是論文的重點(diǎn),主要介紹了系統(tǒng)的一些主要模塊的設(shè)計(jì),包括用戶界面、信息檢索、信息過濾與反饋、用戶模型更新這四大模塊。用戶界面是用戶與系統(tǒng)進(jìn)行交互的基礎(chǔ),用戶信息的輸入和輸出都在這里進(jìn)行,它在系統(tǒng)應(yīng)用中的作用主要體現(xiàn)在信息導(dǎo)引、結(jié)果顯示與反饋這兩方面;系統(tǒng)的信息檢索其實(shí)就是屏蔽掉了的搜索引擎的檢索,本章介紹了系統(tǒng)信息檢索模塊中用戶模型、文檔特征向量的數(shù)據(jù)結(jié)構(gòu)的表示,以及系統(tǒng)信息檢索的基本步驟和簡(jiǎn)單原理圖;信息過濾與反饋是個(gè)性化真正實(shí)現(xiàn)的部分,信息過濾不但要過濾掉相關(guān)度低的結(jié)果還要過濾掉錯(cuò)誤的結(jié)果項(xiàng),并以恰當(dāng)?shù)姆绞桨呀Y(jié)果顯示給用戶;當(dāng)然這樣得到的結(jié)果并不一定滿足所有用戶的要求,在系統(tǒng)的用戶興趣模型更新模塊,主要根據(jù)用戶的反饋對(duì)用戶模型重新調(diào)整,使用戶模型切實(shí)反應(yīng)出用戶的個(gè)性化需求。 第五章介紹了Agent和機(jī)器學(xué)習(xí)這兩種技術(shù)的一般性知識(shí),以及它們?cè)谟脩艚7矫娴膽?yīng)用,并對(duì)目前一些建模方法作了簡(jiǎn)單研究。用戶建模一般可以通過這些方法來(lái)進(jìn)行:服務(wù)器端挖掘、用戶
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2004
【分類號(hào)】:G354
【圖文】:
與q夾角的余弦值即為cos(d,q)
本文編號(hào):2746287
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2004
【分類號(hào)】:G354
【圖文】:
與q夾角的余弦值即為cos(d,q)
【引證文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張艷;;個(gè)性化用戶興趣模型的研究[J];軟件導(dǎo)刊;2011年12期
2 李秦;鄭宏;;基于用戶行為的全文檢索系統(tǒng)個(gè)性化研究[J];圖書館雜志;2008年11期
相關(guān)碩士學(xué)位論文 前1條
1 侯欣如;面向交互設(shè)計(jì)的音樂產(chǎn)品人物角色研究[D];天津大學(xué);2012年
本文編號(hào):2746287
本文鏈接:http://sikaile.net/tushudanganlunwen/2746287.html
最近更新
教材專著