網(wǎng)站簡(jiǎn)約本體垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:本體庫(kù) 切入點(diǎn):垂直搜索引擎 出處:《計(jì)算機(jī)工程與應(yīng)用》2017年19期 論文類型:期刊論文
【摘要】:針對(duì)單個(gè)網(wǎng)站構(gòu)建本體庫(kù)垂直搜索引擎的過(guò)程中,敘詞及其間邏輯關(guān)系等收集整理所耗人力成本高,導(dǎo)致該技術(shù)框架雖成熟,而大多網(wǎng)站搜索功能仍以字符匹配為主,缺乏分詞、查詢擴(kuò)展及結(jié)果的相關(guān)度排序,很難準(zhǔn)確命中相關(guān)查詢內(nèi)容等問(wèn)題,設(shè)計(jì)并開(kāi)發(fā)了一套基于網(wǎng)站簡(jiǎn)約本體庫(kù)的垂直搜索系統(tǒng)。該系統(tǒng)以中國(guó)氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn)為例,利用protégé根據(jù)網(wǎng)站的導(dǎo)航目錄,構(gòu)建了中國(guó)氣象數(shù)據(jù)網(wǎng)的本體庫(kù),基于Lucene引擎構(gòu)建技術(shù)框架,對(duì)本體庫(kù)中的對(duì)象及網(wǎng)頁(yè)內(nèi)容分別進(jìn)行分詞,并構(gòu)建本體對(duì)象索引庫(kù)及網(wǎng)頁(yè)索引庫(kù);前端對(duì)查詢內(nèi)容分詞后,先在本體對(duì)象索引庫(kù)中進(jìn)行擴(kuò)展,利用TF-IDF相關(guān)度算法計(jì)算擴(kuò)展結(jié)果的相關(guān)度并排序,該值作為各擴(kuò)展本體對(duì)象的權(quán)值,并將各自的權(quán)值動(dòng)態(tài)賦給利用Jena二次語(yǔ)義分析技術(shù)擴(kuò)展的對(duì)象,最后將所有帶有權(quán)值的關(guān)鍵詞在網(wǎng)頁(yè)索引庫(kù)中查詢檢索,計(jì)算結(jié)果相關(guān)度并排序。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)構(gòu)建簡(jiǎn)便,能為用戶擴(kuò)展、推薦相關(guān)查詢內(nèi)容,提高了針對(duì)網(wǎng)站檢索的查準(zhǔn)率及查全率。
[Abstract]:In the process of constructing a vertical search engine of ontology database for a single website, the human cost of collecting and arranging the thesaurus and its logical relationship is high, which leads to the maturity of the technical framework, while most of the search functions of the website are still based on character matching. This paper designs and develops a vertical search system based on the simple ontology library of website, which is lack of participle, query expansion and the ranking of the correlation degree of results, and it is very difficult to hit the relevant query content accurately. The system takes http: / / / data.cma.cn. cn. as an example. The ontology database of China Meteorological data Network is constructed by using prot 茅 g 茅 according to the navigation directory of the website. Based on the technical framework of Lucene engine, the objects and web pages in the ontology database are partitioned, and the ontology object index database and the web page index library are constructed. After segmenting the query content, the first extension is carried out in the ontology object index database, and the correlation degree of the extended result is calculated and sorted by using the TF-IDF correlation algorithm, which is regarded as the weight value of each extended ontology object. The weights are dynamically assigned to the objects extended by the Jena quadratic semantic analysis technology. Finally, all the keywords with weights are searched in the index database of the web pages, and the correlation of the results is calculated and sorted. The experimental results show that, The system is easy to build, can be extended for users, recommends related query content, and improves the precision and recall rate for website retrieval.
【作者單位】: 國(guó)家氣象信息中心資料服務(wù)室;中國(guó)農(nóng)業(yè)科學(xué)院植物保護(hù)研究所;列日大學(xué)生物技術(shù)學(xué)院;
【基金】:公益性行業(yè)(氣象)科研專項(xiàng)(重大專項(xiàng))(No.GYHY(QX)20150600-7) 第五屆青年科技基金(No.NMICQJ201604)
【分類號(hào)】:TP391.3;TP393.092
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 盧敏;;垂直搜索——我專故我在[J];軟件世界;2006年23期
2 陳誠(chéng);;基于云計(jì)算的智慧城市垂直搜索技術(shù)研究[J];軟件產(chǎn)業(yè)與工程;2012年04期
3 白駿驕;;垂直搜索更貼近需求或引領(lǐng)搜索市場(chǎng)發(fā)展方向[J];世界電信;2013年05期
4 田野;垂直搜索火熱為哪般[J];中國(guó)計(jì)算機(jī)用戶;2005年37期
5 劉策;;垂直搜索——電子商務(wù)領(lǐng)域的新秀[J];軟件導(dǎo)刊;2006年11期
6 吳偉忠;崔建英;;基于時(shí)效性的垂直搜索及其應(yīng)用[J];暨南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期
7 蔡恩澤;;垂直搜索的精細(xì)化功夫[J];互聯(lián)網(wǎng)天地;2008年08期
8 蔡恩澤;;垂直搜索的精細(xì)化功夫[J];微電腦世界;2008年09期
9 周作濤;;垂直搜索在電子商務(wù)中的應(yīng)用分析[J];陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期
10 章立;陳蜀宇;;一種針對(duì)商品價(jià)格進(jìn)行實(shí)時(shí)垂直搜索的方法[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 周明;劉曉華;蔣龍;Matt Scott;;利用網(wǎng)絡(luò)挖掘技術(shù)建立英語(yǔ)學(xué)習(xí)平臺(tái)[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 劉源;詹舒波;;基于Solr的行業(yè)垂直搜索平臺(tái)的研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 殷林;“垂直搜索”將成就電子商務(wù)新天地[N];中國(guó)商報(bào);2007年
2 本報(bào)記者 林莉君;B2B商業(yè)搜索:垂直搜索是否迎來(lái)新拐點(diǎn)[N];科技日?qǐng)?bào);2011年
3 本報(bào)記者 劉燕;羽量級(jí)歐朋瀏覽器8.0的克制和低調(diào)[N];科技日?qǐng)?bào);2013年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 管虎;普適環(huán)境下輕量級(jí)垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 梅良;基于特定領(lǐng)域?qū)ο蠹?jí)垂直搜索中的對(duì)象抽取問(wèn)題的研究[D];電子科技大學(xué);2015年
2 肖劍;垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實(shí)現(xiàn)[D];南京大學(xué);2014年
3 況雄劍;個(gè)性化時(shí)政信息搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2015年
4 費(fèi)華輝;基于MongoDB的旅游垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2014年
5 呂昊;面向垂直搜索的聚焦爬蟲(chóng)研究及應(yīng)用[D];浙江大學(xué);2008年
6 易平;生活服務(wù)行業(yè)垂直搜索的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2010年
7 宋國(guó);面向分布式數(shù)據(jù)源的語(yǔ)義垂直搜索系統(tǒng)研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年
8 劉金亮;汽車行業(yè)垂直搜索系統(tǒng)原型的設(shè)計(jì)與關(guān)鍵模塊的實(shí)現(xiàn)[D];北京郵電大學(xué);2008年
9 史磊峰;移動(dòng)垂直搜索系統(tǒng)的研究[D];北京交通大學(xué);2010年
10 雷洪;一個(gè)垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2012年
,本文編號(hào):1589561
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1589561.html