基于本體的蘋果病蟲害垂直搜索引擎研發(fā)
本文選題:蘋果病蟲害 + 領(lǐng)域本體; 參考:《西北農(nóng)林科技大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息的急劇膨脹給果農(nóng)提供豐富病蟲害信息資源的同時(shí),又在有效使用方面面臨新的挑戰(zhàn)。針對(duì)現(xiàn)有搜索引擎查準(zhǔn)率低、基于關(guān)鍵字的信息檢索技術(shù)不能滿足用戶在語義上的需求,本文在領(lǐng)域本體的基礎(chǔ)上展開對(duì)蘋果病蟲害垂直搜索引擎的相關(guān)研究。本文主要研究?jī)?nèi)容及結(jié)論如下:(1)蘋果病蟲害本體的構(gòu)建。針對(duì)手工本體構(gòu)建效率低,對(duì)領(lǐng)域?qū)<乙蕾囆蕴珡?qiáng)等問題,采用基于文獻(xiàn)的領(lǐng)域本體構(gòu)建方法構(gòu)建蘋果病蟲害本體。首先,本文對(duì)領(lǐng)域語料進(jìn)行中文分詞和數(shù)據(jù)清洗,通過相關(guān)性判斷得到領(lǐng)域概念。然后,利用關(guān)聯(lián)分析和聚類技術(shù)得到領(lǐng)域概念間的關(guān)聯(lián)關(guān)系。最后,利用關(guān)系數(shù)據(jù)庫對(duì)領(lǐng)域本體進(jìn)行存儲(chǔ)。該方法減少了對(duì)領(lǐng)域?qū)<业囊蕾囆?提高了領(lǐng)域本體構(gòu)建的自動(dòng)性。(2)蘋果病蟲害垂直搜索引擎的構(gòu)建。針對(duì)蘋果病蟲害信息檢索準(zhǔn)確率低的問題,將領(lǐng)域本體引入垂直搜索引擎的構(gòu)建中。首先,進(jìn)行信息的采集和過濾。選取高質(zhì)量的URL作為初始種子,用爬蟲爬取相關(guān)頁面并對(duì)頁面進(jìn)行分析,抽取出頁面中的鏈接,并利用正則表達(dá)式對(duì)鏈接進(jìn)行過濾,將過濾后的URL放入U(xiǎn)RL庫;抽取網(wǎng)頁正文進(jìn)行主題相關(guān)性判斷,將相關(guān)性高的網(wǎng)頁存儲(chǔ)在計(jì)算機(jī)中,按倒排索引策略動(dòng)態(tài)建立索引。然后,實(shí)現(xiàn)信息的擴(kuò)展查詢和相關(guān)詞的可視化推薦。最后對(duì)優(yōu)化的主題爬蟲、信息抽取性能和蘋果病蟲害垂直搜索引擎進(jìn)行測(cè)試。實(shí)驗(yàn)表明,優(yōu)化的爬蟲速度提高了12.7倍;诎b器的信息抽取的查準(zhǔn)率保持在94.6%以上,F-指標(biāo)性能在87.5%以上。本文研究的搜索引擎返回結(jié)果數(shù)目適當(dāng),相關(guān)度比較好,比普通搜索引擎高22%,比“農(nóng)搜網(wǎng)”高5.2%。(3)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。為了方便對(duì)信息檢索平臺(tái)的使用和管理,設(shè)計(jì)并實(shí)現(xiàn)了基于本體的蘋果病蟲害垂直搜索引擎原型系統(tǒng),實(shí)現(xiàn)了領(lǐng)域本體的構(gòu)建、網(wǎng)頁的動(dòng)態(tài)抓取、動(dòng)態(tài)建立索引、擴(kuò)展查詢和相關(guān)詞可視化推薦等功能。
[Abstract]:With the rapid development of the Internet, the rapid expansion of network information to fruit farmers to provide rich information resources, but also in the effective use of new challenges. In view of the low precision of the existing search engines and the fact that the keyword-based information retrieval technology can not meet the semantic needs of users, this paper studies the vertical search engine of apple diseases and insect pests on the basis of domain ontology. The main contents and conclusions of this paper are as follows: 1) the construction of apple pest and disease ontology. Aiming at the problems of low efficiency of manual ontology construction and too strong dependence on domain experts, a method of constructing apple pest and disease ontology based on literature was adopted. Firstly, the Chinese word segmentation and data cleaning of the domain corpus are carried out, and the domain concept is obtained by correlation judgment. Then, the correlation relationship between domain concepts is obtained by using association analysis and clustering techniques. Finally, domain ontology is stored by relational database. This method reduces the dependence on domain experts and improves the automatic construction of domain ontology. Aiming at the problem of low accuracy of apple pest information retrieval, domain ontology is introduced into vertical search engine. Firstly, the information is collected and filtered. The high quality URL is chosen as the initial seed, the crawler is used to crawl the relevant page and analyze the page, the link in the page is extracted, and the link is filtered by the regular expression, and the filtered URL is put into the URL library. The text of the web page is extracted to judge the relevance of the topic, and the pages with high correlation are stored in the computer, and the index is built dynamically according to the inverted index strategy. Then, the extended query of information and the visual recommendation of related words are implemented. Finally, the optimized subject crawler, information extraction performance and vertical search engine of apple pests and diseases were tested. The experimental results show that the optimized crawler speed is increased by 12.7 times. The precision rate of information extraction based on wrapper is above 94.6% and the performance of F- index is over 87.5%. The number of returned results of search engines studied in this paper is appropriate and the correlation degree is good. The design and implementation of the prototype system is 22% higher than that of ordinary search engines and 5.2% higher than that of "Nong Sou net". In order to facilitate the use and management of information retrieval platform, a prototype system of vertical search engine for apple diseases and insect pests based on ontology is designed and implemented. Extended query and related words visual recommendation and other functions.
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 肖冬梅;垂直搜索引擎研究[J];圖書館學(xué)研究;2003年02期
2 楊堅(jiān)爭(zhēng);李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
3 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期
4 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國(guó)科技信息;2007年05期
5 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期
6 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
7 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
8 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
9 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
10 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期
相關(guān)會(huì)議論文 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國(guó)會(huì)計(jì)信息化年會(huì)論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 北大縱橫管理顧問公司高級(jí)顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國(guó)經(jīng)營(yíng)報(bào);2006年
2 王艷;垂直搜索引擎市場(chǎng)看好[N];中國(guó)旅游報(bào);2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日?qǐng)?bào)海外版;2000年
4 楊國(guó)民;國(guó)內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日?qǐng)?bào);2007年
5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭(zhēng)未破題[N];法制日?qǐng)?bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場(chǎng)[N];經(jīng)理日?qǐng)?bào);2008年
8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國(guó)計(jì)算機(jī)報(bào);2000年
10 ;沱沱網(wǎng)“亮劍”國(guó)際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國(guó)貿(mào)易報(bào);2007年
相關(guān)博士學(xué)位論文 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年
2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
3 吳燕瑋;基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年
5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年
6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
9 朱鵬;英文語料庫垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 楊小丹;面向教育資源c\索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
,本文編號(hào):1999108
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1999108.html