生物醫(yī)學(xué)專題信息跟蹤與服務(wù)系統(tǒng)關(guān)鍵技術(shù)的研究與應(yīng)用
發(fā)布時(shí)間:2021-08-05 18:45
搜索引擎是通過互聯(lián)網(wǎng)獲取信息的主要手段之一,而垂直搜索引擎能夠面向特定專業(yè)領(lǐng)域提供更為精確和快捷的信息服務(wù)。目前,國(guó)內(nèi)外各種搜索引擎和檢索系統(tǒng)比較多,但是都存在一定的局限性。例如,信息檢索質(zhì)量不高,能針對(duì)信息需求,主動(dòng)提供專業(yè)信息跟蹤和檢索服務(wù)的系統(tǒng)很少,價(jià)格昂貴等等。本單位作為全軍最高軍事醫(yī)學(xué)科研和疾控機(jī)構(gòu),科研和管理人員對(duì)主動(dòng)、定制化的科研信息具有強(qiáng)烈的需求。為了滿足本單位科研人員的科技信息服務(wù)需求,同時(shí)為總部領(lǐng)導(dǎo)機(jī)關(guān)的科學(xué)決策提供情報(bào)保障,論文作者研究了實(shí)現(xiàn)面向生物醫(yī)學(xué)領(lǐng)域的垂直搜索引擎需要的關(guān)鍵技術(shù),并以此為基礎(chǔ)構(gòu)建了我院自己的生物醫(yī)學(xué)專題信息跟蹤與服務(wù)系統(tǒng)。首先,論文作者利用文獻(xiàn)調(diào)研、專家咨詢以及系統(tǒng)分析的方法,通過對(duì)系統(tǒng)的需求分析,研究和討論了實(shí)現(xiàn)系統(tǒng)功能所需的關(guān)鍵技術(shù),包括網(wǎng)頁抓取、全文檢索、垂直搜索引擎、中文分詞以及增量抓取等,并提出了這些關(guān)鍵技術(shù)的實(shí)現(xiàn)方式和軟件組件工具的選擇依據(jù)。其次,重點(diǎn)研究了部分關(guān)鍵技術(shù)的原理、現(xiàn)狀,對(duì)國(guó)內(nèi)外較有影響的技術(shù)實(shí)現(xiàn)方式和軟件組件產(chǎn)品進(jìn)行了認(rèn)真的比較與選擇,確定了Nutch、Lucene、庖丁解牛等實(shí)現(xiàn)系統(tǒng)需要的開源軟件組件,并剖析了這...
【文章來源】:中國(guó)人民解放軍軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
系統(tǒng)信息流程圖
這里涉及到對(duì)數(shù)據(jù)庫的管理[17],用戶的管理,信息推送等等。圖 1 為系統(tǒng)的信息流程圖。圖 1 系統(tǒng)信息流程圖2.1.1 系統(tǒng)功能模塊系統(tǒng)主要分為以下幾個(gè)功能,如圖 2 所示:
第三章 關(guān)鍵技術(shù)的研究抓取技術(shù)網(wǎng)頁抓取技術(shù),對(duì)生物醫(yī)學(xué)信息類的網(wǎng)站進(jìn)行定向跟蹤和網(wǎng)頁抓取大量的數(shù)據(jù)用來提供信息服務(wù)[19]。理抓取技術(shù)實(shí)際上就是通過一種名為網(wǎng)絡(luò)蜘蛛(spider)的程序去抓的網(wǎng)頁[20]。每個(gè)獨(dú)立的搜索引擎都會(huì)有自己的網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)中漫據(jù)與信息。蜘蛛對(duì)網(wǎng)站進(jìn)行抓取時(shí)首先需要提供一個(gè)入口地址,通過入口地址網(wǎng)頁的內(nèi)容,同時(shí)找到該網(wǎng)頁中的其他鏈接地址,并讀取這些地址所內(nèi)容,如此循環(huán)直到完成整個(gè)網(wǎng)站的抓取。圖 3 為網(wǎng)絡(luò)蜘蛛的原理圖
【參考文獻(xiàn)】:
期刊論文
[1]基于Nutch的開放存取搜索引擎構(gòu)建研究[J]. 崔宇紅,張奎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(10)
[2]Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評(píng)測(cè)[J]. 孫殿哲,魏海平,陳巖. 計(jì)算機(jī)與現(xiàn)代化. 2010(06)
[3]面向計(jì)算機(jī)教育資源的垂直搜索引擎系統(tǒng)的設(shè)計(jì)[J]. 李廣麗,張紅斌. 情報(bào)理論與實(shí)踐. 2010(05)
[4]基于J2EE平臺(tái)的MVC框架的研究[J]. 葉顯中,劉曉燕,周紹景. 工業(yè)控制計(jì)算機(jī). 2010(04)
[5]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(03)
[6]垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 王文鈞,李巍. 情報(bào)科學(xué). 2010(03)
[7]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[8]J2EE輕型架構(gòu)下醫(yī)院感染數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 周芃,周昕,趙東升. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[9]軍隊(duì)醫(yī)藥衛(wèi)生科技查新管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 陽沛湘,柏立嘉,吳曙霞,吳東. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[10]基于本體的Web智能檢索研究[J]. 尹煥亮,孫四明,張峰. 計(jì)算機(jī)工程. 2009(23)
本文編號(hào):3324269
【文章來源】:中國(guó)人民解放軍軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
系統(tǒng)信息流程圖
這里涉及到對(duì)數(shù)據(jù)庫的管理[17],用戶的管理,信息推送等等。圖 1 為系統(tǒng)的信息流程圖。圖 1 系統(tǒng)信息流程圖2.1.1 系統(tǒng)功能模塊系統(tǒng)主要分為以下幾個(gè)功能,如圖 2 所示:
第三章 關(guān)鍵技術(shù)的研究抓取技術(shù)網(wǎng)頁抓取技術(shù),對(duì)生物醫(yī)學(xué)信息類的網(wǎng)站進(jìn)行定向跟蹤和網(wǎng)頁抓取大量的數(shù)據(jù)用來提供信息服務(wù)[19]。理抓取技術(shù)實(shí)際上就是通過一種名為網(wǎng)絡(luò)蜘蛛(spider)的程序去抓的網(wǎng)頁[20]。每個(gè)獨(dú)立的搜索引擎都會(huì)有自己的網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)中漫據(jù)與信息。蜘蛛對(duì)網(wǎng)站進(jìn)行抓取時(shí)首先需要提供一個(gè)入口地址,通過入口地址網(wǎng)頁的內(nèi)容,同時(shí)找到該網(wǎng)頁中的其他鏈接地址,并讀取這些地址所內(nèi)容,如此循環(huán)直到完成整個(gè)網(wǎng)站的抓取。圖 3 為網(wǎng)絡(luò)蜘蛛的原理圖
【參考文獻(xiàn)】:
期刊論文
[1]基于Nutch的開放存取搜索引擎構(gòu)建研究[J]. 崔宇紅,張奎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(10)
[2]Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評(píng)測(cè)[J]. 孫殿哲,魏海平,陳巖. 計(jì)算機(jī)與現(xiàn)代化. 2010(06)
[3]面向計(jì)算機(jī)教育資源的垂直搜索引擎系統(tǒng)的設(shè)計(jì)[J]. 李廣麗,張紅斌. 情報(bào)理論與實(shí)踐. 2010(05)
[4]基于J2EE平臺(tái)的MVC框架的研究[J]. 葉顯中,劉曉燕,周紹景. 工業(yè)控制計(jì)算機(jī). 2010(04)
[5]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(03)
[6]垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 王文鈞,李巍. 情報(bào)科學(xué). 2010(03)
[7]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[8]J2EE輕型架構(gòu)下醫(yī)院感染數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 周芃,周昕,趙東升. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[9]軍隊(duì)醫(yī)藥衛(wèi)生科技查新管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 陽沛湘,柏立嘉,吳曙霞,吳東. 軍事醫(yī)學(xué)科學(xué)院院刊. 2009(06)
[10]基于本體的Web智能檢索研究[J]. 尹煥亮,孫四明,張峰. 計(jì)算機(jī)工程. 2009(23)
本文編號(hào):3324269
本文鏈接:http://sikaile.net/yixuelunwen/swyx/3324269.html
最近更新
教材專著