自動(dòng)主題搜索的應(yīng)用研究
發(fā)布時(shí)間:2021-12-11 06:49
隨著互聯(lián)網(wǎng)上信息量爆炸性地增長(zhǎng),如何高效、低成本地利用Web信息資源就逐漸成為信息服務(wù)機(jī)構(gòu)和最終信息用戶所關(guān)注的問題。本論文研究目的就是希望通過對(duì)主題搜索的應(yīng)用進(jìn)行研究,探索Web主題資源的建設(shè)方法。Web主題資源自動(dòng)搜索技術(shù)可以充分利用Web上大量的免費(fèi)資源,自動(dòng)地搜集Web主題資源,擺脫對(duì)專家的依賴,降低建設(shè)成本,提高Web主題資源建設(shè)的速度、效率和質(zhì)量。 本論文的研究工作主要包含以下四個(gè)方面: (1)研究了主題搜索的基本理論和Web主題資源的建設(shè)模式,探討Web主題資源自動(dòng)搜索的相關(guān)技術(shù),為自動(dòng)主題搜索提供一個(gè)可行的研究方案,設(shè)計(jì)出一個(gè)Web主題資源自動(dòng)建設(shè)的功能框架; (2)分析和實(shí)現(xiàn)了一個(gè)新型的多模式字符串匹配算法。該算法是以確定性有限狀態(tài)自動(dòng)機(jī)(DFSA)為基礎(chǔ),結(jié)合Quick Search算法而提出的,可以用來提高主題爬行器的網(wǎng)頁(yè)分析和Web網(wǎng)頁(yè)分類器的速度。經(jīng)改造之后,狀態(tài)自動(dòng)機(jī)所占用的內(nèi)存不到標(biāo)準(zhǔn)DFSA占用內(nèi)存的一半,提高了多模式字符串匹配算法的性能。 (3)從社會(huì)學(xué)、文獻(xiàn)計(jì)量學(xué)和計(jì)算機(jī)科學(xué)等角度分析了Web超鏈相關(guān)知識(shí),并在經(jīng)典的HITS算...
【文章來源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心)北京市
【文章頁(yè)數(shù)】:146 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
通用搜索引擎系統(tǒng)結(jié)構(gòu)
搜索范圍之內(nèi),從而使SciruS引擎能夠精確地找到普通搜索引擎所找不到的、免費(fèi)的或者訪問受限的科學(xué)信息資源。圖2一4是該系統(tǒng)主題資源建設(shè)的一個(gè)示意圖,該模型形象地說明了Scirus網(wǎng)站資源的建設(shè)過程。將人工和計(jì)算機(jī)自動(dòng)工作完美地結(jié)合在一起,爬行器就可以高效地面向主題去爬行W亡b,但它的爬行器就只會(huì)爬行它收錄范圍內(nèi)的網(wǎng)頁(yè),相對(duì)于其它的搜索引擎實(shí)現(xiàn)起來要容易得多。分類階段是按照某個(gè)學(xué)科分類體系對(duì)下載的網(wǎng)頁(yè)和數(shù)據(jù)庫(kù)中的論文進(jìn)行分門別類。它采用了兩種分類:一個(gè)是主題分類,如物理、醫(yī)學(xué)等20個(gè)主題;
制個(gè)性化服務(wù)。其中“天網(wǎng)主題”就是致力于特定領(lǐng)域、地域、特定主題的資源搜索搜集。值得注意的是,北大天網(wǎng)是繼“天網(wǎng)目錄”服務(wù)推出之后才推出了“天網(wǎng)主題”服務(wù)。他們解決的關(guān)鍵技術(shù)是網(wǎng)頁(yè)分類技術(shù)。天網(wǎng)主題的服務(wù)界面如圖2一7所示。unil相關(guān)搜索廠一一一一一-…漁巡皿s.ar比1”.248,641pa‘e,飛”lde加王x,工士.,Last即date:丁胡.2藝,2003圖2一7北大“天網(wǎng)主題”服務(wù)界面2.5小結(jié)本章首先辨析了主題搜索以及它與搜索引擎、W己b數(shù)據(jù)挖掘、W亡b信息檢索、主題爬行器、主題搜索引擎之間的關(guān)系,然后詳細(xì)說明了搜索引擎涉及到的爬行技術(shù)、文本索引、超鏈索引、實(shí)用索引、數(shù)據(jù)壓縮和存儲(chǔ)、信息檢索、避免爬行陷阱等技術(shù),為主題搜索引擎的研究提供技術(shù)上的支持。最后
【參考文獻(xiàn)】:
期刊論文
[1]學(xué)科分類知識(shí)庫(kù)的構(gòu)建及其在網(wǎng)絡(luò)資源分類中的作用[J]. 向桂林. 圖書情報(bào)工作. 2003(02)
[2]文本內(nèi)容主題的識(shí)別方法[J]. 朱靖波,姚天順. 東北大學(xué)學(xué)報(bào). 2002(05)
[3]基于潛在語義索引的文本摘要方法[J]. 林鴻飛,高仁璟. 大連理工大學(xué)學(xué)報(bào). 2001(06)
[4]第三代搜索引擎與天網(wǎng)二期[J]. 雷鳴,王建勇,趙江華,單松巍,陳葆玨. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(05)
[5]網(wǎng)絡(luò)環(huán)境下數(shù)字資源的建設(shè)與利用[J]. 高京文. 情報(bào)雜志. 2001(06)
[6]基于鏈接分析的學(xué)術(shù)性WWW網(wǎng)絡(luò)資源評(píng)價(jià)與分類方法[J]. 黃奇,李偉. 情報(bào)學(xué)報(bào). 2001(02)
[7]Web挖掘研究[J]. 韓家煒,孟小峰,王靜,李盛恩. 計(jì)算機(jī)研究與發(fā)展. 2001(04)
[8]文本挖掘、數(shù)據(jù)挖掘和知識(shí)管理——二十一世紀(jì)的智能信息處理[J]. 韓客松,王永成. 情報(bào)學(xué)報(bào). 2001(01)
[9]垂直門戶及垂直門戶信息服務(wù)模式可行性研究[J]. 王斌. 圖書情報(bào)工作. 2001(01)
[10]Web網(wǎng)頁(yè)識(shí)別中的特征選擇問題研究[J]. 朱明,王軍,王俊普. 計(jì)算機(jī)工程. 2000(08)
博士論文
[1]Web信息服務(wù)中受控語言研究[D]. 毛軍.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[2]個(gè)性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 李廣建.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[3]Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實(shí)踐研究[D]. 張智雄.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 2000
碩士論文
[1]主題型搜索引擎的研究與實(shí)現(xiàn)[D]. 侯震宇.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2003
[2]擴(kuò)展元搜索引擎(EMSE)的系統(tǒng)設(shè)計(jì)[D]. 張儉恭.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[3]網(wǎng)絡(luò)智能知識(shí)服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王勝海.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
本文編號(hào):3534204
【文章來源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心)北京市
【文章頁(yè)數(shù)】:146 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
通用搜索引擎系統(tǒng)結(jié)構(gòu)
搜索范圍之內(nèi),從而使SciruS引擎能夠精確地找到普通搜索引擎所找不到的、免費(fèi)的或者訪問受限的科學(xué)信息資源。圖2一4是該系統(tǒng)主題資源建設(shè)的一個(gè)示意圖,該模型形象地說明了Scirus網(wǎng)站資源的建設(shè)過程。將人工和計(jì)算機(jī)自動(dòng)工作完美地結(jié)合在一起,爬行器就可以高效地面向主題去爬行W亡b,但它的爬行器就只會(huì)爬行它收錄范圍內(nèi)的網(wǎng)頁(yè),相對(duì)于其它的搜索引擎實(shí)現(xiàn)起來要容易得多。分類階段是按照某個(gè)學(xué)科分類體系對(duì)下載的網(wǎng)頁(yè)和數(shù)據(jù)庫(kù)中的論文進(jìn)行分門別類。它采用了兩種分類:一個(gè)是主題分類,如物理、醫(yī)學(xué)等20個(gè)主題;
制個(gè)性化服務(wù)。其中“天網(wǎng)主題”就是致力于特定領(lǐng)域、地域、特定主題的資源搜索搜集。值得注意的是,北大天網(wǎng)是繼“天網(wǎng)目錄”服務(wù)推出之后才推出了“天網(wǎng)主題”服務(wù)。他們解決的關(guān)鍵技術(shù)是網(wǎng)頁(yè)分類技術(shù)。天網(wǎng)主題的服務(wù)界面如圖2一7所示。unil相關(guān)搜索廠一一一一一-…漁巡皿s.ar比1”.248,641pa‘e,飛”lde加王x,工士.,Last即date:丁胡.2藝,2003圖2一7北大“天網(wǎng)主題”服務(wù)界面2.5小結(jié)本章首先辨析了主題搜索以及它與搜索引擎、W己b數(shù)據(jù)挖掘、W亡b信息檢索、主題爬行器、主題搜索引擎之間的關(guān)系,然后詳細(xì)說明了搜索引擎涉及到的爬行技術(shù)、文本索引、超鏈索引、實(shí)用索引、數(shù)據(jù)壓縮和存儲(chǔ)、信息檢索、避免爬行陷阱等技術(shù),為主題搜索引擎的研究提供技術(shù)上的支持。最后
【參考文獻(xiàn)】:
期刊論文
[1]學(xué)科分類知識(shí)庫(kù)的構(gòu)建及其在網(wǎng)絡(luò)資源分類中的作用[J]. 向桂林. 圖書情報(bào)工作. 2003(02)
[2]文本內(nèi)容主題的識(shí)別方法[J]. 朱靖波,姚天順. 東北大學(xué)學(xué)報(bào). 2002(05)
[3]基于潛在語義索引的文本摘要方法[J]. 林鴻飛,高仁璟. 大連理工大學(xué)學(xué)報(bào). 2001(06)
[4]第三代搜索引擎與天網(wǎng)二期[J]. 雷鳴,王建勇,趙江華,單松巍,陳葆玨. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(05)
[5]網(wǎng)絡(luò)環(huán)境下數(shù)字資源的建設(shè)與利用[J]. 高京文. 情報(bào)雜志. 2001(06)
[6]基于鏈接分析的學(xué)術(shù)性WWW網(wǎng)絡(luò)資源評(píng)價(jià)與分類方法[J]. 黃奇,李偉. 情報(bào)學(xué)報(bào). 2001(02)
[7]Web挖掘研究[J]. 韓家煒,孟小峰,王靜,李盛恩. 計(jì)算機(jī)研究與發(fā)展. 2001(04)
[8]文本挖掘、數(shù)據(jù)挖掘和知識(shí)管理——二十一世紀(jì)的智能信息處理[J]. 韓客松,王永成. 情報(bào)學(xué)報(bào). 2001(01)
[9]垂直門戶及垂直門戶信息服務(wù)模式可行性研究[J]. 王斌. 圖書情報(bào)工作. 2001(01)
[10]Web網(wǎng)頁(yè)識(shí)別中的特征選擇問題研究[J]. 朱明,王軍,王俊普. 計(jì)算機(jī)工程. 2000(08)
博士論文
[1]Web信息服務(wù)中受控語言研究[D]. 毛軍.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[2]個(gè)性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 李廣建.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[3]Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實(shí)踐研究[D]. 張智雄.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 2000
碩士論文
[1]主題型搜索引擎的研究與實(shí)現(xiàn)[D]. 侯震宇.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2003
[2]擴(kuò)展元搜索引擎(EMSE)的系統(tǒng)設(shè)計(jì)[D]. 張儉恭.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
[3]網(wǎng)絡(luò)智能知識(shí)服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王勝海.中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心) 2002
本文編號(hào):3534204
本文鏈接:http://sikaile.net/tushudanganlunwen/3534204.html
最近更新
教材專著