基于元搜索與內(nèi)容聚類(lèi)的情報(bào)獲取技術(shù)研究
發(fā)布時(shí)間:2020-07-14 21:42
【摘要】: 目前網(wǎng)絡(luò)信息已經(jīng)成為主要的情報(bào)源,其獲取的主要方式之一就是使用搜索引擎。但是,利用搜索引擎獲取的網(wǎng)絡(luò)信息仍存在很多問(wèn)題:例如獲取的信息量很大但是有用信息很少;獲取的信息多樣但是用戶無(wú)法識(shí)別相關(guān)信息群體等。有用信息資源的獲取已經(jīng)逐漸成為情報(bào)業(yè)發(fā)展的一個(gè)瓶頸。因此,如何從海量信息中剔除無(wú)用信息,迅速定位至信息群,從而快速、高效地獲取情報(bào)資源,并對(duì)其進(jìn)行加工整理并提供給情報(bào)用戶,是情報(bào)界人士面臨的一大挑戰(zhàn),也是目前亟需解決的問(wèn)題。 本論文以提高情報(bào)獲取效率與質(zhì)量為主要目標(biāo),研究和實(shí)現(xiàn)了基于元搜索與內(nèi)容聚類(lèi)的情報(bào)獲取系統(tǒng)。主要?jiǎng)?chuàng)新點(diǎn):(1)設(shè)計(jì)了情報(bào)獲取系統(tǒng)的總體框架,提出了搜索模塊、運(yùn)算模塊、用戶模塊三大功能模塊,并闡述各模塊的功能流程。(2)提出了基于網(wǎng)頁(yè)標(biāo)題摘要分析方法進(jìn)行元搜索引擎結(jié)果相關(guān)性判斷。實(shí)驗(yàn)結(jié)果表明,元搜索引擎搜索結(jié)果的平均準(zhǔn)確率比各個(gè)成員引擎的搜索結(jié)果平均準(zhǔn)確率都有較大提高。(3)結(jié)合當(dāng)前兩種主要的聚類(lèi)算法—K-means劃分法和BIRCH聚類(lèi)算法,提出了在元搜索結(jié)果處理基礎(chǔ)上進(jìn)行聚類(lèi)的方法。實(shí)驗(yàn)證明,該方法在聚類(lèi)效果上有較明顯的改善,并且效率得到了很大提高。(4)在情報(bào)獲取系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)方面,提出了數(shù)據(jù)庫(kù)系統(tǒng)、軟件系統(tǒng)、人機(jī)界面的設(shè)計(jì)方案,實(shí)現(xiàn)了基于網(wǎng)頁(yè)標(biāo)題摘要分析的信息檢索、基于元搜索結(jié)果和K-means與BIRCH算法結(jié)合算法的聚類(lèi)分析,以及基于OLAM的多維分析。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類(lèi)號(hào)】:G354
【圖文】:
52 基于元搜索與內(nèi)容聚類(lèi)的情報(bào)獲取技術(shù)研究次樹(shù)構(gòu)成的。當(dāng)用戶提出一個(gè)分析請(qǐng)求時(shí),層次樹(shù)中的級(jí)別概念特別重要。例如用戶想看一個(gè)由內(nèi)容行和時(shí)間行所形成的矩陣時(shí),他應(yīng)該指出是想看內(nèi)容維所有級(jí)別的數(shù)據(jù),還是想看一級(jí)聚簇或二級(jí)聚簇的數(shù)據(jù),或是利用層次關(guān)系一步步地向下深入訪問(wèn)到各個(gè)級(jí)別中去。層次結(jié)構(gòu)概念是向上匯總和向下鉆取兩個(gè)操作的基礎(chǔ)。
圖 6.6 界面設(shè)計(jì)圖1) 搜索選項(xiàng)區(qū):提供界面方便用戶輸入關(guān)鍵詞、選擇排序方式以及選擇結(jié)果集合個(gè)數(shù)。用戶可根據(jù)需要控制搜索結(jié)果的相關(guān)性和集合大。2) 分析選項(xiàng)區(qū):提供界面供用戶選擇時(shí)間粒度(選項(xiàng)包括年、月、日),空間粒度(選項(xiàng)包括國(guó)家、地區(qū)、省市),聚簇深度,方便用戶對(duì)多維數(shù)據(jù)的粒度進(jìn)行控制;3) 搜索結(jié)果區(qū):這是系統(tǒng)接受了查詢請(qǐng)求,經(jīng)過(guò)關(guān)鍵詞解析、計(jì)算相關(guān)度、網(wǎng)頁(yè)優(yōu)化后的最終結(jié)果。4) 聚類(lèi)樹(shù)顯示區(qū):這是系統(tǒng)接受用戶請(qǐng)求,對(duì)搜索得到的結(jié)果集合進(jìn)行聚類(lèi)處理后形成的分層聚類(lèi)樹(shù)。5) 分析結(jié)果區(qū):在用戶提交分析選擇后,系統(tǒng)會(huì)根據(jù)數(shù)據(jù)庫(kù)中的多粒度數(shù)據(jù)調(diào)用水晶報(bào)表形成分析結(jié)果提交給用戶,同時(shí)水晶報(bào)表還會(huì)提供導(dǎo)出 Excel 表的功能,用戶可存儲(chǔ)分析結(jié)果。
圖 6.7 趨勢(shì)分析圖水晶報(bào)表生成的趨勢(shì)分析圖,橫坐標(biāo)是以日期為度量值,縱坐標(biāo)是網(wǎng)頁(yè)出現(xiàn)數(shù)目,不同的顏色表示不同層次聚類(lèi)簇的網(wǎng)頁(yè)數(shù),從報(bào)表結(jié)果可以看出一段時(shí)期內(nèi)某方面內(nèi)容的網(wǎng)頁(yè)出現(xiàn)的日分布規(guī)律。6.5 本章小結(jié)本章主要介紹了目前已經(jīng)設(shè)計(jì)實(shí)現(xiàn)的情報(bào)系統(tǒng),從數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、從數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、軟件系統(tǒng)設(shè)計(jì)、人機(jī)查詢界面設(shè)計(jì)三部分介紹?傮w上,實(shí)現(xiàn)了基于網(wǎng)頁(yè)摘要分析的關(guān)鍵詞信息檢索、基于元搜索結(jié)果和 K-means 與 BIRCH 算法結(jié)合算法的聚類(lèi)分析,以及基于 ROLAM 的多維分析,這是設(shè)計(jì)功能比較全面的情報(bào)系統(tǒng)。
本文編號(hào):2755525
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類(lèi)號(hào)】:G354
【圖文】:
52 基于元搜索與內(nèi)容聚類(lèi)的情報(bào)獲取技術(shù)研究次樹(shù)構(gòu)成的。當(dāng)用戶提出一個(gè)分析請(qǐng)求時(shí),層次樹(shù)中的級(jí)別概念特別重要。例如用戶想看一個(gè)由內(nèi)容行和時(shí)間行所形成的矩陣時(shí),他應(yīng)該指出是想看內(nèi)容維所有級(jí)別的數(shù)據(jù),還是想看一級(jí)聚簇或二級(jí)聚簇的數(shù)據(jù),或是利用層次關(guān)系一步步地向下深入訪問(wèn)到各個(gè)級(jí)別中去。層次結(jié)構(gòu)概念是向上匯總和向下鉆取兩個(gè)操作的基礎(chǔ)。
圖 6.6 界面設(shè)計(jì)圖1) 搜索選項(xiàng)區(qū):提供界面方便用戶輸入關(guān)鍵詞、選擇排序方式以及選擇結(jié)果集合個(gè)數(shù)。用戶可根據(jù)需要控制搜索結(jié)果的相關(guān)性和集合大。2) 分析選項(xiàng)區(qū):提供界面供用戶選擇時(shí)間粒度(選項(xiàng)包括年、月、日),空間粒度(選項(xiàng)包括國(guó)家、地區(qū)、省市),聚簇深度,方便用戶對(duì)多維數(shù)據(jù)的粒度進(jìn)行控制;3) 搜索結(jié)果區(qū):這是系統(tǒng)接受了查詢請(qǐng)求,經(jīng)過(guò)關(guān)鍵詞解析、計(jì)算相關(guān)度、網(wǎng)頁(yè)優(yōu)化后的最終結(jié)果。4) 聚類(lèi)樹(shù)顯示區(qū):這是系統(tǒng)接受用戶請(qǐng)求,對(duì)搜索得到的結(jié)果集合進(jìn)行聚類(lèi)處理后形成的分層聚類(lèi)樹(shù)。5) 分析結(jié)果區(qū):在用戶提交分析選擇后,系統(tǒng)會(huì)根據(jù)數(shù)據(jù)庫(kù)中的多粒度數(shù)據(jù)調(diào)用水晶報(bào)表形成分析結(jié)果提交給用戶,同時(shí)水晶報(bào)表還會(huì)提供導(dǎo)出 Excel 表的功能,用戶可存儲(chǔ)分析結(jié)果。
圖 6.7 趨勢(shì)分析圖水晶報(bào)表生成的趨勢(shì)分析圖,橫坐標(biāo)是以日期為度量值,縱坐標(biāo)是網(wǎng)頁(yè)出現(xiàn)數(shù)目,不同的顏色表示不同層次聚類(lèi)簇的網(wǎng)頁(yè)數(shù),從報(bào)表結(jié)果可以看出一段時(shí)期內(nèi)某方面內(nèi)容的網(wǎng)頁(yè)出現(xiàn)的日分布規(guī)律。6.5 本章小結(jié)本章主要介紹了目前已經(jīng)設(shè)計(jì)實(shí)現(xiàn)的情報(bào)系統(tǒng),從數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、從數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)、軟件系統(tǒng)設(shè)計(jì)、人機(jī)查詢界面設(shè)計(jì)三部分介紹?傮w上,實(shí)現(xiàn)了基于網(wǎng)頁(yè)摘要分析的關(guān)鍵詞信息檢索、基于元搜索結(jié)果和 K-means 與 BIRCH 算法結(jié)合算法的聚類(lèi)分析,以及基于 ROLAM 的多維分析,這是設(shè)計(jì)功能比較全面的情報(bào)系統(tǒng)。
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 袁虹,何厚存;聯(lián)機(jī)分析及數(shù)據(jù)倉(cāng)庫(kù)的建模技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;1999年12期
2 黃若波,左春,孫玉芳;基于Web環(huán)境下的OLAP技術(shù)的研究和實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2000年10期
3 符紹宏,黃];搜索引擎技術(shù)與服務(wù)的研究及其啟示[J];情報(bào)學(xué)報(bào);2000年06期
4 王連軍;Web文本挖掘淺析[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2002年06期
5 張衛(wèi)豐,徐寶文,周曉宇,管宇,許蕾;基于遺傳算法的搜索引擎調(diào)度[J];微電子學(xué)與計(jì)算機(jī);2001年04期
相關(guān)博士學(xué)位論文 前1條
1 曹薊光;聯(lián)機(jī)分析挖掘處理技術(shù)(OLAM)的研究[D];浙江大學(xué);2001年
相關(guān)碩士學(xué)位論文 前1條
1 陳偉雄;基于元搜索的中文搜索引擎研究與實(shí)現(xiàn)[D];清華大學(xué);2004年
本文編號(hào):2755525
本文鏈接:http://sikaile.net/tushudanganlunwen/2755525.html
最近更新
教材專著