基于標記樹對象抽取技術(shù)的Hidden Web獲取研究
本文關(guān)鍵詞: Hidden Web 信息檢索 對象抽取 結(jié)構(gòu)化查詢 標記樹 出處:《計算機工程與應用》2002年23期 論文類型:期刊論文
【摘要】:目前標準的搜索引擎能夠檢索的僅僅是WorldWideWeb提供的小部分稱為可索引的Web信息。大量的HiddenWeb信息(估計容量是可索引Web的500倍)對這些搜索引擎是不可見的。這些信息隱藏在Web頁面的搜索表單后面,保存在大型的動態(tài)數(shù)據(jù)庫中。該文提出了一套檢索HiddenWeb信息的方法,給出了系統(tǒng)的框架結(jié)構(gòu),并詳細討論了實現(xiàn)的關(guān)鍵技術(shù)。系統(tǒng)采用新的基于標記樹的對象抽取(Tag-Tree-basedObjectExtraction)方法自動地從Web頁面中抽取HiddenWeb信息,然后在此基礎上給出了結(jié)構(gòu)化的HiddenWeb信息查詢算法。文章最后對實驗結(jié)果進行了討論。
[Abstract]:The current standard search engine is able to retrieve only a small portion of the Web information provided by WorldWideWeb called indexed. A large amount of HiddenWeb information. The estimated capacity is 500 times that of an indexed Web) that is not visible to these search engines. This information is hidden behind the search form on the Web page. This paper presents a set of methods for retrieving HiddenWeb information and gives the framework of the system. The key technology of the implementation is discussed in detail. The system adopts a new object extraction based on tag tree and Tag-Tree-Based object Extraction-based (Tag-Tree-based object Extraction). Method automatically extracts HiddenWeb information from a Web page. Then a structured HiddenWeb information query algorithm is presented. Finally, the experimental results are discussed.
【作者單位】: 上海交通大學計算機系 上海交通大學計算機系 上海交通大學計算機系 上海交通大學計算機系
【基金】:國家自然科學基金重大國際合作項目資助(編號:60221120145)
【分類號】:TP391.4
【正文快照】: 1引言今天,,人們已經(jīng)習慣于通過搜索引擎從網(wǎng)上查找信息。目前,主流的搜索引擎基本上只收集了互聯(lián)網(wǎng)上部分稱為publiclyindexableWebrぃ,4rΓǹ傷饕┑男畔。这部分信息是由Crawler按照某種控制策略,沿著Web頁面的超鏈接圖下載的Web頁面集合,通常也被稱為靜態(tài)頁面集
【參考文獻】
相關(guān)期刊論文 前1條
1 王繼成,鄒濤,楊小江,潘金貴,張福炎;基于Internet的信息資源發(fā)現(xiàn)技術(shù)與實現(xiàn)[J];計算機研究與發(fā)展;1999年11期
【共引文獻】
相關(guān)期刊論文 前10條
1 李存華,紀兆輝;基于互聯(lián)網(wǎng)絡的決策支持系統(tǒng)模型[J];計算機工程;2000年10期
2 宋偉,王舉成,馬根峰,趙濟林;Internet數(shù)據(jù)挖掘原理及實現(xiàn)[J];重慶郵電學院學報(自然科學版);2001年02期
3 肖曉旦,陳先來;互聯(lián)網(wǎng)信息資源組織發(fā)展趨勢分析[J];高校圖書館工作;2004年06期
4 文坤梅,盧正鼎,陳莉,鄧曦;元搜索引擎中檢索結(jié)果排序的優(yōu)化方法[J];華中科技大學學報(自然科學版);2003年03期
5 孫霞,鄭慶華;教育資源元數(shù)據(jù)語義擴展查找方法的研究[J];計算機研究與發(fā)展;2004年12期
6 丁永生,周斌,楊文春;HTML文檔的模糊檢索模型[J];計算機工程與應用;2001年03期
7 汪肇兵,朱桂林,陳震岳,石教英;個性化智能信息檢索的設計與實現(xiàn)[J];計算機工程與應用;2001年11期
8 周國民,周伯生;基于XML的多媒體光盤出版系統(tǒng)的研究[J];計算機工程與應用;2001年12期
9 李淑琴,王誠,劉衛(wèi)東,蔡月茹;基于Agent的網(wǎng)上高校招生管理系統(tǒng)模型[J];計算機工程與應用;2001年18期
10 張曉冬,張書杰,邢俊麗,李俊玉;關(guān)于信息過濾模型的探討[J];計算機工程與應用;2002年05期
相關(guān)會議論文 前1條
1 李振星;徐澤平;;基于興趣模型的WEB信息預測采集過濾方法[A];第一屆學生計算語言學研討會論文集[C];2002年
相關(guān)博士學位論文 前5條
1 李春梅;基于Internet/Intranet和Multi-Agent的企業(yè)經(jīng)營戰(zhàn)略群體決策支持系統(tǒng)研究[D];昆明理工大學;2001年
2 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年
3 朱征宇;Web資源組織與服務性能研究[D];重慶大學;2003年
4 傅明;基于Web的空間數(shù)據(jù)挖掘研究[D];中南大學;2004年
5 吳翔;產(chǎn)品4D信息模型的基礎技術(shù)研究[D];武漢理工大學;2005年
相關(guān)碩士學位論文 前10條
1 賈保先;基于Ontology的智能信息檢索關(guān)鍵技術(shù)研究[D];中國海洋大學;2007年
2 高順紀;基于Agent的中文多元搜索引擎的研究和開發(fā)[D];北京工業(yè)大學;2000年
3 劉向輝;專題性智能搜索引擎的研究與實現(xiàn)[D];昆明理工大學;2001年
4 苗世敏;EC站點分析技術(shù)研究[D];河北工業(yè)大學;2002年
5 李健;網(wǎng)絡結(jié)構(gòu)單元中學術(shù)信息分布的計量研究[D];西南師范大學;2002年
6 冶紅;基于數(shù)據(jù)挖掘的Web挖掘系統(tǒng)的研究[D];大連理工大學;2003年
7 楊艷麗;元數(shù)據(jù)與網(wǎng)絡信息資源的管理[D];太原理工大學;2003年
8 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年
9 白麗君;基于內(nèi)容和協(xié)作的科技文獻過濾方法研究[D];山西大學;2003年
10 吳宗樹;基于agent的internet信息自動提取的研究[D];沈陽工業(yè)大學;2003年
【二級參考文獻】
相關(guān)期刊論文 前1條
1 楊曉江,張福炎;基于Z39.50的聯(lián)機書目檢索服務[J];軟件學報;1999年08期
【相似文獻】
相關(guān)期刊論文 前10條
1 宋暉,張嶺,葉允明,馬范援;基于標記樹對象抽取技術(shù)的Hidden Web獲取研究[J];計算機工程與應用;2002年23期
2 蘭東俊,朱精南;網(wǎng)頁視圖的重構(gòu)與轉(zhuǎn)化[J];計算機應用;2003年S2期
3 張樹瑜,朱仲英;基于MT決策樹的Web信息抽取研究[J];計算機工程與應用;2004年13期
4 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計算機工程;2004年12期
5 張樹瑜,杜國寧,朱仲英;基于Web的半結(jié)構(gòu)化信息抽取技術(shù)研究[J];系統(tǒng)工程與電子技術(shù);2004年05期
6 常育紅,姜哲,朱小燕;基于標記樹表示方法的頁面結(jié)構(gòu)分析[J];計算機工程與應用;2004年16期
7 莊懷宇,吳成柯,鄧家先,李云松,劉凱;JPEG2000 T_2編碼快速算法及硬件實現(xiàn)[J];系統(tǒng)工程與電子技術(shù);2004年12期
8 董東;郭瑞強;李紅;;XML函數(shù)依賴研究[J];計算機應用與軟件;2006年10期
9 陳華竣;鄭智;倪德明;;真前綴標記樹——一種面向用戶的子樹選取策略表示方法[J];計算機技術(shù)與發(fā)展;2006年12期
10 陳華竣;;真前綴標記樹在子樹選取策略中的應用[J];廣東技術(shù)師范學院學報;2006年06期
相關(guān)碩士學位論文 前5條
1 張程;基于智能Agent的搜索引擎研究[D];重慶大學;2002年
2 張磊;淋巴結(jié)樹突狀細胞對腎癌預后的影響[D];中國人民解放軍軍醫(yī)進修學院;2004年
3 郭林;面向XML文檔的數(shù)據(jù)挖掘技術(shù)研究[D];大連理工大學;2005年
4 王春龍;基于網(wǎng)站語義結(jié)構(gòu)的信息抽取系統(tǒng)的研究與實現(xiàn)[D];北京交通大學;2007年
5 趙嫣;信息檢索中結(jié)構(gòu)化文檔相關(guān)度計算方法的研究[D];山東大學;2007年
本文編號:1491020
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1491020.html