數(shù)據(jù)挖掘技術(shù)在個(gè)性化信息檢索系統(tǒng)中的應(yīng)用研究
發(fā)布時(shí)間:2021-08-20 13:25
隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)上信息量以驚人的速度增長(zhǎng),并且更新頻繁。人們面對(duì)的問題不再是缺乏有用信息,而是如何找到自己所需要的信息。雖然傳統(tǒng)信息檢索技術(shù)在一定程度上滿足了人們的需要,但卻存在著低查準(zhǔn)率和低查全率的問題。多數(shù)商業(yè)搜索引擎提供的信息檢索服務(wù),由于側(cè)重通用性而不能滿足不同背景、不同目的用戶的查詢請(qǐng)求。針對(duì)這種現(xiàn)狀,作者研究了基于數(shù)據(jù)挖掘的個(gè)性化信息檢索系統(tǒng)。論文首先對(duì)搜索引擎系統(tǒng)的研究現(xiàn)狀和發(fā)展趨勢(shì)進(jìn)行論述,探討了將數(shù)據(jù)挖掘技術(shù)應(yīng)用于個(gè)性化信息檢索系統(tǒng)的可行性,在此基礎(chǔ)上提出了一個(gè)基于數(shù)據(jù)挖掘的個(gè)性化信息檢索系統(tǒng)的總體框架模型。接著對(duì)該系統(tǒng)的主要功能進(jìn)行較深入的描述,對(duì)該系統(tǒng)的的關(guān)鍵技術(shù)進(jìn)行較深入的研究。最后給出了一種基于Apriori的類別關(guān)聯(lián)規(guī)則的挖掘算法。仿真結(jié)果表明基于Apriori的類別關(guān)聯(lián)規(guī)則的挖掘算法能夠挖掘出用戶的個(gè)性化信息,同時(shí)表明用戶個(gè)性化信息的質(zhì)量好壞與支持度值的大小密切相關(guān)。
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
PIRSBDM 系統(tǒng)體系結(jié)構(gòu)
部分的內(nèi)容將在本章后面章節(jié)進(jìn)行介紹。關(guān)聯(lián)規(guī)則挖掘的基本模型如圖 4.1 所示。圖4.1 關(guān)聯(lián)規(guī)則挖掘步驟圖中 D 為數(shù)據(jù)集,算法 1 為頻繁項(xiàng)目集的搜索算法,算法 2 為關(guān)聯(lián)規(guī)則的產(chǎn)生算法,R 為挖出的關(guān)聯(lián)規(guī)則集合。用戶通過指定 minsupport 和 minconfidence 分別與算法 1 和算法 2 交互,并通過與 R 的交互對(duì)挖掘結(jié)果進(jìn)行解釋和評(píng)估。本文利用算法 1 挖掘出頻繁項(xiàng)目集作為用戶個(gè)性化信息,所以只需指定 minsupport 即可。對(duì)于本系統(tǒng)來說,我們只需挖掘出用戶的關(guān)鍵詞組合作為數(shù)據(jù)集 D,設(shè)定好minsupport 的值
第四章 PIRSBDM 系統(tǒng)關(guān)鍵技術(shù)研究 4聚類方法相比,SOM 網(wǎng)絡(luò)的優(yōu)點(diǎn)在于:可以實(shí)現(xiàn)實(shí)時(shí)學(xué)習(xí),網(wǎng)絡(luò)具有自穩(wěn)定性無須外界給出評(píng)價(jià)函數(shù),能夠識(shí)別向量空間中最有意義的特征,抗噪音能力強(qiáng)這些特點(diǎn)將有利于 Web 文檔的聚類。SOM 網(wǎng)絡(luò)由輸入層和競(jìng)爭(zhēng)層組成,輸入層N 個(gè)輸入神經(jīng)元組成,競(jìng)爭(zhēng)層由 M 個(gè)輸出神經(jīng)元組成。輸入層各神經(jīng)元與競(jìng)爭(zhēng)各神經(jīng)元之間實(shí)現(xiàn)全互連接。如圖 4.4 所示,為清楚起見,僅畫出各輸入神經(jīng)元競(jìng)爭(zhēng)層神經(jīng)元 j 的連接情況,網(wǎng)絡(luò)的連接權(quán)值為ijw (i=1,2,…,N;j=1,2,…,M)。
【參考文獻(xiàn)】:
期刊論文
[1]基于用戶的個(gè)性化智能搜索引擎[J]. 金玉堅(jiān),劉焱. 現(xiàn)代情報(bào). 2005(07)
[2]一種基于關(guān)聯(lián)分類方法的Web用戶興趣預(yù)測(cè)[J]. 陳振,鄭誠(chéng),朱小棟. 微機(jī)發(fā)展. 2005(05)
[3]搜索引擎Google的檢索規(guī)則[J]. 吳敏. 蘭臺(tái)世界. 2005(07)
[4]幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢(shì)探討[J]. 黃知義,周寧. 圖書館學(xué)研究. 2005(03)
[5]論搜索引擎的人性化發(fā)展趨勢(shì)[J]. 李蘇華,李建偉. 中山大學(xué)學(xué)報(bào)論叢. 2005(01)
[6]Google和百度兩種搜索引擎比較研究[J]. 王香蓮. 現(xiàn)代圖書情報(bào)技術(shù). 2004(08)
[7]模糊關(guān)聯(lián)規(guī)則的挖掘算法[J]. 徐鳳生,陸玉昌. 德州學(xué)院學(xué)報(bào)(自然科學(xué)版). 2002(02)
[8]一種基于SOM的中文Web文檔層次聚類方法[J]. 陳福集,楊善林. 情報(bào)學(xué)報(bào). 2002(02)
[9]Archie,Gopher,WAIS和WWW——Internet網(wǎng)上主要信息查詢工具介紹[J]. 黃靜. 圖書館學(xué)刊. 2001(03)
[10]Web搜索引擎的現(xiàn)狀分析[J]. 吳果. 河南紡織高等專科學(xué)校學(xué)報(bào). 2001(02)
博士論文
[1]電子政務(wù)系統(tǒng)中面向公眾的信息集成化管理與個(gè)性化服務(wù)研究[D]. 陳福集.合肥工業(yè)大學(xué) 2004
碩士論文
[1]關(guān)聯(lián)規(guī)則挖掘技術(shù)研究[D]. 郎瑾.西安電子科技大學(xué) 2005
[2]個(gè)性化智能信息檢索系統(tǒng)研究[D]. 顧鑫.哈爾濱工程大學(xué) 2004
本文編號(hào):3353580
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
PIRSBDM 系統(tǒng)體系結(jié)構(gòu)
部分的內(nèi)容將在本章后面章節(jié)進(jìn)行介紹。關(guān)聯(lián)規(guī)則挖掘的基本模型如圖 4.1 所示。圖4.1 關(guān)聯(lián)規(guī)則挖掘步驟圖中 D 為數(shù)據(jù)集,算法 1 為頻繁項(xiàng)目集的搜索算法,算法 2 為關(guān)聯(lián)規(guī)則的產(chǎn)生算法,R 為挖出的關(guān)聯(lián)規(guī)則集合。用戶通過指定 minsupport 和 minconfidence 分別與算法 1 和算法 2 交互,并通過與 R 的交互對(duì)挖掘結(jié)果進(jìn)行解釋和評(píng)估。本文利用算法 1 挖掘出頻繁項(xiàng)目集作為用戶個(gè)性化信息,所以只需指定 minsupport 即可。對(duì)于本系統(tǒng)來說,我們只需挖掘出用戶的關(guān)鍵詞組合作為數(shù)據(jù)集 D,設(shè)定好minsupport 的值
第四章 PIRSBDM 系統(tǒng)關(guān)鍵技術(shù)研究 4聚類方法相比,SOM 網(wǎng)絡(luò)的優(yōu)點(diǎn)在于:可以實(shí)現(xiàn)實(shí)時(shí)學(xué)習(xí),網(wǎng)絡(luò)具有自穩(wěn)定性無須外界給出評(píng)價(jià)函數(shù),能夠識(shí)別向量空間中最有意義的特征,抗噪音能力強(qiáng)這些特點(diǎn)將有利于 Web 文檔的聚類。SOM 網(wǎng)絡(luò)由輸入層和競(jìng)爭(zhēng)層組成,輸入層N 個(gè)輸入神經(jīng)元組成,競(jìng)爭(zhēng)層由 M 個(gè)輸出神經(jīng)元組成。輸入層各神經(jīng)元與競(jìng)爭(zhēng)各神經(jīng)元之間實(shí)現(xiàn)全互連接。如圖 4.4 所示,為清楚起見,僅畫出各輸入神經(jīng)元競(jìng)爭(zhēng)層神經(jīng)元 j 的連接情況,網(wǎng)絡(luò)的連接權(quán)值為ijw (i=1,2,…,N;j=1,2,…,M)。
【參考文獻(xiàn)】:
期刊論文
[1]基于用戶的個(gè)性化智能搜索引擎[J]. 金玉堅(jiān),劉焱. 現(xiàn)代情報(bào). 2005(07)
[2]一種基于關(guān)聯(lián)分類方法的Web用戶興趣預(yù)測(cè)[J]. 陳振,鄭誠(chéng),朱小棟. 微機(jī)發(fā)展. 2005(05)
[3]搜索引擎Google的檢索規(guī)則[J]. 吳敏. 蘭臺(tái)世界. 2005(07)
[4]幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢(shì)探討[J]. 黃知義,周寧. 圖書館學(xué)研究. 2005(03)
[5]論搜索引擎的人性化發(fā)展趨勢(shì)[J]. 李蘇華,李建偉. 中山大學(xué)學(xué)報(bào)論叢. 2005(01)
[6]Google和百度兩種搜索引擎比較研究[J]. 王香蓮. 現(xiàn)代圖書情報(bào)技術(shù). 2004(08)
[7]模糊關(guān)聯(lián)規(guī)則的挖掘算法[J]. 徐鳳生,陸玉昌. 德州學(xué)院學(xué)報(bào)(自然科學(xué)版). 2002(02)
[8]一種基于SOM的中文Web文檔層次聚類方法[J]. 陳福集,楊善林. 情報(bào)學(xué)報(bào). 2002(02)
[9]Archie,Gopher,WAIS和WWW——Internet網(wǎng)上主要信息查詢工具介紹[J]. 黃靜. 圖書館學(xué)刊. 2001(03)
[10]Web搜索引擎的現(xiàn)狀分析[J]. 吳果. 河南紡織高等專科學(xué)校學(xué)報(bào). 2001(02)
博士論文
[1]電子政務(wù)系統(tǒng)中面向公眾的信息集成化管理與個(gè)性化服務(wù)研究[D]. 陳福集.合肥工業(yè)大學(xué) 2004
碩士論文
[1]關(guān)聯(lián)規(guī)則挖掘技術(shù)研究[D]. 郎瑾.西安電子科技大學(xué) 2005
[2]個(gè)性化智能信息檢索系統(tǒng)研究[D]. 顧鑫.哈爾濱工程大學(xué) 2004
本文編號(hào):3353580
本文鏈接:http://sikaile.net/tushudanganlunwen/3353580.html
最近更新
教材專著