林業(yè)企業(yè)黃頁(yè)Deep Web數(shù)據(jù)集成研究
本文選題:林業(yè)企業(yè)黃頁(yè) + Deep; 參考:《北京林業(yè)大學(xué)》2012年碩士論文
【摘要】:由于互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web信息急劇膨脹,傳統(tǒng)搜索引擎注重查全率而查準(zhǔn)率不足,導(dǎo)致Web信息搜索越來(lái)越困難。特定領(lǐng)域的Deep Web網(wǎng)站上蘊(yùn)藏著豐富的主題信息,但是這些Deep Web網(wǎng)站通常是分散的、不易檢索的,因此,Deep Web數(shù)據(jù)集成技術(shù)逐漸成為研究熱點(diǎn)。它不但可以解決傳統(tǒng)搜索引擎不能索引Deep Web數(shù)據(jù)的局限,還能把各個(gè)孤立的Deep Web數(shù)據(jù)集成到一起,提供面向主題的一站式搜索服務(wù)。林業(yè)Deep Web情況亦然,用戶難以利用傳統(tǒng)的技術(shù)全面快速地收集Deep Web中的企業(yè)信息,使用Deep Web數(shù)據(jù)集成技術(shù)對(duì)林業(yè)企業(yè)黃頁(yè)進(jìn)行集成,提供高效專業(yè)化的Web信息服務(wù),能夠讓用戶更快的找到相關(guān)信息,不僅促進(jìn)林業(yè)信息化發(fā)展,同時(shí),也有利于推動(dòng)林業(yè)經(jīng)濟(jì)的發(fā)展。 本文通過(guò)對(duì)林業(yè)企業(yè)黃頁(yè)Deep Web特征的分析,提出根據(jù)層次結(jié)構(gòu)制定導(dǎo)航規(guī)則的Deep Web爬蟲模型,設(shè)計(jì)出數(shù)據(jù)抽取的模板。同時(shí),本文還對(duì)用戶身份驗(yàn)證、導(dǎo)航URL提取、翻頁(yè)URL提取、頁(yè)面屬性字段的提取、數(shù)據(jù)去重等Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)做了探索性的研究,通過(guò)實(shí)驗(yàn)對(duì)各種方案進(jìn)行了嘗試和比較,然后給出了最優(yōu)的解決方案,并最終開發(fā)出高可用性的林業(yè)企業(yè)黃頁(yè)Deep Web數(shù)據(jù)集成系統(tǒng)。最后,本文對(duì)系統(tǒng)的改進(jìn)做了一些展望,為進(jìn)一步的研究提供了基礎(chǔ)。
[Abstract]:Due to the rapid development of Internet technology and the rapid expansion of web information, the traditional search engines pay more attention to recall and insufficient precision, which makes it more and more difficult to search for Web information. There are abundant subject information on Deep Web websites in specific fields, but these Deep Web websites are usually scattered and difficult to retrieve. Therefore, deep Web data integration technology is becoming a hot research topic. It can not only solve the limitation that traditional search engine can not index Deep Web data, but also integrate all isolated Deep Web data together to provide a one-stop search service for topic oriented. The same is true of forestry Deep Web. It is difficult for users to collect enterprise information in Deep Web by traditional technology, and to integrate yellow pages of forestry enterprises with Deep Web data integration technology to provide efficient and specialized Web information service. It not only promotes the development of forestry information, but also promotes the development of forestry economy. Based on the analysis of Deep Web features of yellow pages in forestry enterprises, this paper proposes a Deep Web crawler model for navigation rules based on hierarchical structure, and designs a template for data extraction. At the same time, the key technologies of Deep Web data integration, such as user authentication, navigation URL extraction, page turning URL extraction, page attribute field extraction, data de-reprocessing and so on, are also studied in this paper. This paper attempts and compares various schemes through experiments, then gives the optimal solution, and finally develops a high-availability yellow page Deep Web data integration system for forestry enterprises. Finally, this paper makes some prospects for the improvement of the system, which provides the basis for further research.
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.09;F326.2
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳鵬;劉烈宏;;深度web資源搜索關(guān)鍵技術(shù)[J];北京航空航天大學(xué)學(xué)報(bào);2009年01期
2 王建紅;中國(guó)黃頁(yè):“錢景”廣闊 市場(chǎng)混亂[J];出版參考;2004年34期
3 張成洪,肖軍建,張誠(chéng);Web內(nèi)容抽取及其數(shù)據(jù)管理方法[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2001年02期
4 黃謙,徐建新;電信運(yùn)營(yíng)商的"黃頁(yè)"產(chǎn)品組合與推廣對(duì)策[J];改革與戰(zhàn)略;2005年01期
5 楊葉飛;;黃頁(yè)價(jià)值及開發(fā)策略探討[J];廣西輕工業(yè);2009年07期
6 熊海軍,王保義,張少敏,張琦;基于XML的Web數(shù)據(jù)集成研究[J];華北電力大學(xué)學(xué)報(bào);2004年05期
7 李勝利;李昌清;袁平鵬;劉英書;;基于Web的電子期刊元數(shù)據(jù)信息抽取方法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年12期
8 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動(dòng)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
9 張金隆,李魁,鮑玉昆,曾宇容;基于XML技術(shù)的Web數(shù)據(jù)集成模型研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年14期
10 彭洪匯;林作銓;;Internet上的搜索引擎和元搜索引擎[J];計(jì)算機(jī)科學(xué);2002年09期
相關(guān)博士學(xué)位論文 前1條
1 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問(wèn)題的研究[D];上海交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前3條
1 黃波;主題搜索引擎的研究與應(yīng)用[D];成都理工大學(xué);2007年
2 楊虎;面向海量短文本去重技術(shù)的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2007年
3 陳佳佳;Deep Web數(shù)據(jù)集成研究及其在購(gòu)書領(lǐng)域中的應(yīng)用[D];暨南大學(xué);2010年
,本文編號(hào):1891639
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1891639.html