天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Web的DCI垂直搜索引擎的研究與設(shè)計(jì)

發(fā)布時(shí)間:2018-12-30 13:14
【摘要】:為了解決用戶能夠快速、準(zhǔn)確的搜索互聯(lián)網(wǎng)上數(shù)字作品信息的問題,分析設(shè)計(jì)了一個(gè)對(duì)數(shù)字作品版權(quán)唯一標(biāo)識(shí)符(Digital Copyright Identifier簡稱DCI)數(shù)字作品的垂直搜索引擎。首先基于Heritrix網(wǎng)絡(luò)爬蟲技術(shù),對(duì)互聯(lián)網(wǎng)上的數(shù)字作品進(jìn)行數(shù)據(jù)采集和正文信息抽取,并將抽取的數(shù)據(jù)保存到本地;然后基于Lucene的全文檢索工具包,對(duì)本地?cái)?shù)據(jù)進(jìn)行分詞、倒排索引、索引檢索和改進(jìn)的相關(guān)度排序等處理,最終設(shè)計(jì)實(shí)現(xiàn)了一個(gè)通用可擴(kuò)展的DCI垂直搜索引擎。實(shí)驗(yàn)結(jié)果表明,該搜索引擎在很大程度上提高了網(wǎng)頁信息抽取的準(zhǔn)確度和數(shù)據(jù)的檢索效率。
[Abstract]:In order to solve the problem that users can quickly and accurately search digital works information on the Internet, a vertical search engine for digital works is designed and analyzed. Firstly, based on the Heritrix crawler technology, the digital works on the Internet are collected and the text information is extracted, and the extracted data is saved to the local area. Then, based on the full-text retrieval toolkit of Lucene, the local data are processed such as word segmentation, inverted index, index retrieval and improved correlation ranking. Finally, a universal scalable DCI vertical search engine is designed and implemented. The experimental results show that the search engine improves the accuracy of web page information extraction and the efficiency of data retrieval to a great extent.
【作者單位】: 北方工業(yè)大學(xué)信息工程學(xué)院;
【基金】:國家科技部支撐計(jì)劃課題基金項(xiàng)目(2012BAH04f03)
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 趙珂;逯鵬;李永強(qiáng);;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2011年16期

2 王歡;孫瑞志;;基于領(lǐng)域本體和Lucene的語義檢索系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2010年06期

3 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

4 蔣一峰;王華;張玉紅;黃少林;;基于Lucene的語義檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年20期

5 付強(qiáng);;基于Lucene的高校圖書垂直搜索引擎的研究與實(shí)現(xiàn)[J];太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];兵工學(xué)報(bào);2009年S1期

2 毛布;謝汶;;一種基于博弈論的死鎖檢測機(jī)制研究[J];成都電子機(jī)械高等專科學(xué)校學(xué)報(bào);2010年04期

3 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期

4 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期

5 趙文;唐建雄;高慶鋒;;基于統(tǒng)計(jì)的中文網(wǎng)頁正文抽取的研究[J];電腦知識(shí)與技術(shù);2008年01期

6 王強(qiáng);戰(zhàn)忠麗;張鳳君;;基于語義分組向量空間模型的Web新聞檢索算法[J];電子科技;2011年04期

7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識(shí)庫系統(tǒng)結(jié)構(gòu)設(shè)計(jì)[J];福建電腦;2012年01期

8 胡瑜;王立志;;基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J];遼寧石油化工大學(xué)學(xué)報(bào);2009年03期

9 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期

10 諶超;強(qiáng)保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學(xué)學(xué)報(bào);2012年04期

相關(guān)會(huì)議論文 前4條

1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

2 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年

3 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

4 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

相關(guān)博士學(xué)位論文 前1條

1 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 王樂超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

2 孟祥燕;問答對(duì)自動(dòng)獲取的研究[D];昆明理工大學(xué);2008年

3 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年

4 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年

5 陳晶;基于網(wǎng)頁的信息抽取的研究[D];西安工業(yè)大學(xué);2011年

6 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問題的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2011年

7 高永勝;基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D];大連理工大學(xué);2011年

8 董錦霞;基于菱形思維的概念檢索模型研究[D];大連理工大學(xué);2011年

9 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應(yīng)用[D];大連理工大學(xué);2011年

10 王偉;基于網(wǎng)絡(luò)信息的熱點(diǎn)事件發(fā)現(xiàn)與分析研究[D];華東師范大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馬暉男;吳江寧;潘東華;;一種基于同義詞詞典的模糊查詢擴(kuò)展方法[J];大連理工大學(xué)學(xué)報(bào);2007年03期

2 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期

3 郭立力;趙春江;;高效FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期

4 張承立;陳劍波;齊開悅;;基于語義網(wǎng)的語義相似度算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年17期

5 張宇;王映輝;張翔南;;基于Spring的MVC框架設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2010年04期

6 黃果;周竹榮;周亭;;基于領(lǐng)域本體的語義相似度計(jì)算研究[J];計(jì)算機(jī)工程與科學(xué);2007年05期

7 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2010年02期

8 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動(dòng)提取方法[J];計(jì)算機(jī)學(xué)報(bào);2004年03期

9 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學(xué)報(bào);2003年04期

10 鄭世明;任在安;宋自林;邵榮明;戴榮榮;潘明聰;;基于Ontology的語義查詢分析研究[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期

相關(guān)碩士學(xué)位論文 前3條

1 楊永毅;基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];重慶大學(xué);2009年

2 王冬坡;基于Lucene的主題搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2010年

3 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學(xué);2010年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周純;;垂直搜索引擎技術(shù)進(jìn)展[J];知識(shí)經(jīng)濟(jì);2011年09期

2 彭玉容;楊捧;高媛;;農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究[J];安徽農(nóng)業(yè)科學(xué);2010年20期

3 郭興;柯鵬;徐媛;李宗榮;;論垂直搜索引擎中的信息抽取技術(shù)的選用[J];醫(yī)學(xué)信息;2006年12期

4 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

5 郝愛峰;;網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)方法研究[J];山西電子技術(shù);2008年04期

6 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識(shí)與技術(shù);2010年02期

7 任小燕;康小軍;;面向教育資源的垂直搜索引擎應(yīng)用研究[J];軟件導(dǎo)刊;2007年13期

8 王寧;毛垣生;;水平和垂直搜索引擎的比較與應(yīng)用實(shí)踐[J];圖書館工作與研究;2009年12期

9 胡亮;袁芳;齊蕓蕓;;農(nóng)業(yè)垂直搜索引擎信息抽取的研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年05期

10 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期

相關(guān)會(huì)議論文 前10條

1 楊存榜;蘇春曉;郭素;陳紅素;陳久森;于瑞珍;;用于ICF實(shí)驗(yàn)的大型數(shù)據(jù)庫系統(tǒng)的開發(fā)[A];第六屆全國激光科學(xué)技術(shù)青年學(xué)術(shù)交流會(huì)論文集[C];2001年

2 張?jiān)迄i;;Proficy Historian在邯鋼集團(tuán)全廠實(shí)時(shí)生產(chǎn)信息系統(tǒng)中的應(yīng)用[A];全國煉鋼連鑄過程自動(dòng)化技術(shù)交流會(huì)論文集[C];2006年

3 朱曄;;對(duì)電能量采集與計(jì)費(fèi)系統(tǒng)的探討[A];2007云南電力技術(shù)論壇論文集[C];2007年

4 張建新;蔡冬梅;;“數(shù)字城市”基礎(chǔ)數(shù)據(jù)獲取技術(shù)的探討[A];2009全國測繪科技信息交流會(huì)暨首屆測繪博客征文頒獎(jiǎng)?wù)撐募痆C];2009年

5 馮立;劉思齊;錢曉龍;;基于NetLinx架構(gòu)的企業(yè)控制信息集成[A];中國儀器儀表學(xué)會(huì)第五屆青年學(xué)術(shù)會(huì)議論文集[C];2003年

6 賈根蓮;王開因;;企業(yè)數(shù)據(jù)中心建設(shè)過程中的關(guān)鍵問題[A];全國第十五屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2003年

7 陳恩平;;基于VB的數(shù)據(jù)采集軟件設(shè)計(jì)及關(guān)鍵問題研究[A];《制造業(yè)自動(dòng)化與網(wǎng)絡(luò)化制造》學(xué)術(shù)交流會(huì)論文集[C];2004年

8 廖之平;;土地利用數(shù)據(jù)庫建設(shè)的方法探索[A];第十五屆全國遙感技術(shù)學(xué)術(shù)交流會(huì)論文摘要集[C];2005年

9 路長城;李德明;;基于MapGIS的城市地形圖數(shù)據(jù)庫的建設(shè)[A];'2005數(shù)字江蘇論壇——電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年

10 路長城;李德明;;基于MapGIS的城市地形圖數(shù)據(jù)庫的建設(shè)[A];'2005數(shù)字江蘇論壇電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年

2 ;IBM IM獨(dú)特的數(shù)據(jù)采集工具[N];中國計(jì)算機(jī)報(bào);2002年

3 單群一;用友發(fā)布新稅務(wù)查賬軟件[N];中國稅務(wù)報(bào);2007年

4 廖軍邋傅作良 王繼曄;陜西建立數(shù)據(jù)采集報(bào)送長效機(jī)制[N];中國交通報(bào);2008年

5 北京合眾思?jí)芽萍脊煞萦邢薰?彭玉群;移動(dòng)GIS蓄勢待發(fā)[N];計(jì)算機(jī)世界;2008年

6 張濤;應(yīng)用推動(dòng)軟件技術(shù)創(chuàng)新[N];計(jì)算機(jī)世界;2007年

7 于翔;打造實(shí)用主義ITSM[N];網(wǎng)絡(luò)世界;2007年

8 清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室 張敏 金奕江;尋“寶”有術(shù)[N];計(jì)算機(jī)世界;2003年

9 王東華邋蔣捷;芬蘭國家地圖數(shù)據(jù)庫建設(shè)與更新[N];中國測繪報(bào);2007年

10 林麗雅邋王慧;營銷系統(tǒng)和GIS系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)共享[N];國家電網(wǎng)報(bào);2007年

相關(guān)博士學(xué)位論文 前10條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

4 馬英杰;基于3GS的核勘查數(shù)據(jù)采集及處理系統(tǒng)研究[D];成都理工大學(xué);2010年

5 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

6 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

7 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國科學(xué)技術(shù)大學(xué);2010年

8 李學(xué)鋒;礦山企業(yè)數(shù)據(jù)倉庫的應(yīng)用研究[D];昆明理工大學(xué);2005年

9 楊武;基于多源數(shù)據(jù)的土地利用變化研究[D];同濟(jì)大學(xué);2006年

10 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 肖亮;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2008年

2 李文澤;個(gè)性化垂直搜索引擎研究[D];河南大學(xué);2007年

3 任軍;基于網(wǎng)頁結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn)[D];上海交通大學(xué);2008年

4 江娟;垂直搜索引擎數(shù)據(jù)分析技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年

5 金嬋鳴;垂直搜索引擎系統(tǒng)的研究[D];武漢理工大學(xué);2010年

6 張贏;個(gè)性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年

7 周兵;基于分布式精準(zhǔn)采集的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

8 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

9 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年

10 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年

,

本文編號(hào):2395630

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2395630.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b18f4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com