天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向分布式數(shù)據(jù)源的語(yǔ)義垂直搜索系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-06-27 22:08

  本文選題:垂直搜索 + 領(lǐng)域本體; 參考:《哈爾濱工業(yè)大學(xué)》2013年碩士論文


【摘要】:近年來(lái),隨著Internet技術(shù)的高速發(fā)展,Web信息爆炸性增長(zhǎng),互聯(lián)網(wǎng)已成為海量數(shù)據(jù)空間。人們從這些海量數(shù)據(jù)中得到自己需要的信息變的越來(lái)越困難,此時(shí)搜索技術(shù)變的尤為重要。隨著搜索引擎技術(shù)的高速發(fā)展,通用搜索引擎的功能變的日益強(qiáng)大,,這使得通用搜索引擎的結(jié)構(gòu)也日益復(fù)雜,擁有龐大的索引數(shù)據(jù)和十分寬泛的主題,并且主題與主題之間無(wú)分類(lèi)。而且通用搜索的搜索深度不夠,查準(zhǔn)率較低,時(shí)效性較差等這些局限性決定了通用搜索并不能滿足特定用戶(hù)的需求。由于人們對(duì)特定領(lǐng)域、特殊行業(yè)的個(gè)性化需求,人們迫切需要更有針對(duì)性、更具搜索深度的搜索引擎,在這種情況下,面向特定領(lǐng)域的垂直搜索技術(shù)應(yīng)運(yùn)而生。目前已有很多垂直搜索引擎,如生活搜索酷訊、旅游搜索去哪兒網(wǎng)等,但這些垂直搜索引擎仍采用基于關(guān)鍵詞的搜索方式,無(wú)法滿足用戶(hù)語(yǔ)義級(jí)別的檢索要求。 為了研究和實(shí)現(xiàn)語(yǔ)義層面的垂直搜索,提高檢索質(zhì)量,依據(jù)課題背景和課題來(lái)源,本文主要研究分布式環(huán)境下語(yǔ)義垂直搜索技術(shù)和系統(tǒng)實(shí)現(xiàn)。主要包括研究領(lǐng)域本體的構(gòu)建,基于領(lǐng)域本體的語(yǔ)義查詢(xún)擴(kuò)展方法,基于DOM樹(shù)的信息抽取,采用最新索引Lucene4.x等技術(shù)實(shí)現(xiàn)語(yǔ)義級(jí)別的垂直搜索,并做出實(shí)驗(yàn)數(shù)據(jù)分析。本文研究和完成的主要工作有: (1)通過(guò)計(jì)算機(jī)安全領(lǐng)域信息的采集、過(guò)濾、歸類(lèi)等處理構(gòu)建面向計(jì)算機(jī)安全領(lǐng)域的領(lǐng)域本體,由于計(jì)算機(jī)安全領(lǐng)域涉及廣泛,出于時(shí)間上的考慮,本文針對(duì)計(jì)算機(jī)安全領(lǐng)域狹窄范圍進(jìn)行本體的構(gòu)建。并對(duì)各類(lèi)的屬性和類(lèi)之間的關(guān)系進(jìn)行定義描述,實(shí)現(xiàn)計(jì)算機(jī)安全領(lǐng)域知識(shí)的表示和信息組織。 (2)根據(jù)計(jì)算機(jī)安全領(lǐng)域獨(dú)有的特點(diǎn),使用基于規(guī)則的DOM樹(shù)的信息抽取技術(shù)初步實(shí)現(xiàn)對(duì)計(jì)算機(jī)安全領(lǐng)域的相關(guān)信息的自動(dòng)抽取,為將來(lái)本體的編輯和維護(hù)打下基礎(chǔ)。 (3)對(duì)本體中的實(shí)例、概念、對(duì)象屬性、數(shù)據(jù)屬性以及類(lèi)與類(lèi)之間的關(guān)系構(gòu)建索引,利用索引完成對(duì)用戶(hù)的查詢(xún)請(qǐng)求的語(yǔ)義分析和語(yǔ)義擴(kuò)展,實(shí)現(xiàn)語(yǔ)義級(jí)別的信息檢索。 (4)根據(jù)某所提供的語(yǔ)義詞典和關(guān)系范疇構(gòu)建概念詞語(yǔ)層次體系,為語(yǔ)義查詢(xún)擴(kuò)展打下基礎(chǔ)。 本文設(shè)計(jì)并實(shí)現(xiàn)了基于計(jì)算機(jī)安全領(lǐng)域本體的語(yǔ)義垂直搜索服務(wù)。實(shí)驗(yàn)表明,本文設(shè)計(jì)語(yǔ)義垂直搜索系統(tǒng)能較好的解決目前基于關(guān)鍵字檢索中存在的機(jī)械式搜索缺陷以及查詢(xún)精度不夠等的缺陷,說(shuō)明基于領(lǐng)域本體的語(yǔ)義垂直搜索具有現(xiàn)實(shí)意義。
[Abstract]:In recent years, with the rapid development of Internet technology and the explosive growth of Web information, the Internet has become a massive data space. It is becoming more and more difficult for people to get the information they need from these massive data, and the search technology is becoming more and more important. With the rapid development of search engine technology, the function of general search engine becomes more and more powerful, which makes the structure of general search engine more and more complex, with huge index data and very broad theme. And there is no classification between themes and themes. And the limitations of general search, such as insufficient search depth, low precision rate and poor timeliness, determine that general search can not meet the needs of specific users. Because of the individualized demand of specific fields and industries, people urgently need search engines with more pertinence and search depth. In this case, the vertical search technology for specific fields emerges as the times require. At present, there are many vertical search engines, such as life search cool news, travel search where to go to the net, but these vertical search engines still use the search method based on keywords, which can not meet the users' semantic level of retrieval requirements. In order to study and realize the vertical search in semantic level and improve the retrieval quality, according to the background and source of the subject, this paper mainly studies the technology and system implementation of semantic vertical search in distributed environment. It mainly includes the construction of domain ontology, the extension method of semantic query based on domain ontology, information extraction based on Dom tree, vertical search of semantic level using the latest index Lucene 4.x, and the analysis of experimental data. The main works of this paper are as follows: (1) the domain ontology of computer security domain is constructed by collecting, filtering and classifying the information in computer security domain. For the sake of time, this paper constructs ontology for the narrow scope of computer security field. The definition and description of each kind of attribute and the relationship between classes are carried out to realize the representation and information organization of computer security domain knowledge. (2) according to the unique characteristics of computer security field, The information extraction technology based on rule based Dom tree is used to realize the automatic extraction of relevant information in computer security domain, which lays the foundation for the editing and maintenance of ontology in the future. (3) for the instance, concept, object attribute of ontology. The data attribute and the relation between class and class are used to construct index, and the semantic analysis and semantic extension of query request of user are accomplished by using index. The semantic level information retrieval is realized. (4) based on the semantic dictionary and relational category, the concept word hierarchy is constructed, which lays the foundation for semantic query expansion. A semantic vertical search service based on computer security domain ontology is designed and implemented in this paper. Experiments show that the design of semantic vertical search system in this paper can solve the defects of mechanical search and query accuracy in keyword retrieval. It shows that the semantic vertical search based on domain ontology is of practical significance.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期

2 秦茜;;期待搜狗抹平新賬舊債馬云張朝陽(yáng)合謀垂直搜索[J];IT時(shí)代周刊;2010年17期

3 劉金亮;蘇琳;石云;;基于Nutch的垂直搜索技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年24期

4 ;有了百度、Google,還要?jiǎng)e的搜索嗎?[J];電腦愛(ài)好者;2007年23期

5 燕苗;;搜索引擎技術(shù)研究與發(fā)展[J];科技傳播;2011年10期

6 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期

7 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期

8 劉運(yùn)強(qiáng);;垂直搜索引擎的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用與軟件;2010年07期

9 姜明媚;;完美搜索[J];互聯(lián)網(wǎng)周刊;2007年05期

10 李宇寧;忻展紅;;移動(dòng)搜索業(yè)務(wù)發(fā)展趨勢(shì)分析[J];現(xiàn)代通信;2007年Z5期

相關(guān)會(huì)議論文 前10條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年

2 周明;劉曉華;蔣龍;Matt Scott;;利用網(wǎng)絡(luò)挖掘技術(shù)建立英語(yǔ)學(xué)習(xí)平臺(tái)[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

3 劉悅;許洪波;程學(xué)旗;;互聯(lián)網(wǎng)挖掘和搜索的研究進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

4 劉源;詹舒波;;基于Solr的行業(yè)垂直搜索平臺(tái)的研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年

5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

7 羅偉;李陶深;;一種基于本體的個(gè)性化搜索引擎模型[A];廣西計(jì)算機(jī)學(xué)會(huì)2006年年會(huì)論文集[C];2006年

8 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

9 張志強(qiáng);孟慶海;謝曉芹;;個(gè)性化的社會(huì)標(biāo)簽查詢(xún)擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年

10 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 魏蓓;中文商業(yè)搜索引擎提供垂直搜索服務(wù)[N];市場(chǎng)報(bào);2006年

2 ;移動(dòng)垂直搜索開(kāi)拓中國(guó)搜索新天地[N];人民郵電;2006年

3 李永勝;垂直搜索:Google們漏掉的空檔?[N];中國(guó)計(jì)算機(jī)報(bào);2006年

4 沉風(fēng);垂直搜索:互聯(lián)網(wǎng)服務(wù)生活新方向[N];人民郵電;2007年

5 薛娟;垂直搜索盯緊風(fēng)投的口袋?[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2006年

6 姜蓉;垂直搜索是搜索市場(chǎng)的新“錢(qián)景”[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

7 蘇娟;中移動(dòng)即將上線無(wú)線音樂(lè)垂直搜索業(yè)務(wù)[N];中國(guó)計(jì)算機(jī)報(bào);2008年

8 建平;專(zhuān)業(yè)垂直搜索升溫[N];計(jì)算機(jī)世界;2005年

9 本報(bào)記者 杜華斌;——垂直搜索使網(wǎng)上購(gòu)物更容易[N];科技日?qǐng)?bào);2005年

10 郭白巖;垂直搜索正在搶綜合搜索的“飯碗”[N];中國(guó)經(jīng)營(yíng)報(bào);2008年

相關(guān)博士學(xué)位論文 前10條

1 管虎;普適環(huán)境下輕量級(jí)垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年

2 陳德品;基于遷移學(xué)習(xí)的跨領(lǐng)域排序?qū)W習(xí)算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

3 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

4 仲兆滿;事件本體及其在查詢(xún)擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年

5 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

6 王樹(shù)梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年

7 劉東飛;智能雙語(yǔ)搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年

8 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年

9 王一川;基于內(nèi)容的海量文本探索式查詢(xún)導(dǎo)引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年

10 王俊義;正負(fù)相關(guān)反饋與查詢(xún)擴(kuò)展技術(shù)的研究[D];內(nèi)蒙古大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 宋國(guó);面向分布式數(shù)據(jù)源的語(yǔ)義垂直搜索系統(tǒng)研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年

2 易平;生活服務(wù)行業(yè)垂直搜索的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2010年

3 王振華;檔案領(lǐng)域垂直搜索技術(shù)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年

4 史磊峰;移動(dòng)垂直搜索系統(tǒng)的研究[D];北京交通大學(xué);2010年

5 雷洪;一個(gè)垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2012年

6 鄔亞文;威客垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年

7 王晶;基于垂直搜索技術(shù)的競(jìng)爭(zhēng)情報(bào)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2011年

8 楊衍鵬;基于垂直搜索的移動(dòng)閱讀產(chǎn)品設(shè)計(jì)與研究[D];湖南大學(xué);2011年

9 曾銘;垂直搜索技術(shù)在社交網(wǎng)站中的應(yīng)用與研究[D];北京郵電大學(xué);2013年

10 陶秋紅;中文垂直搜索技術(shù)的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2012年



本文編號(hào):2075437

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2075437.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b8d24***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com