基于XML的自動學習Web信息抽取
發(fā)布時間:2018-04-16 02:31
本文選題:信息提取 + 半結(jié)構(gòu)化; 參考:《計算機科學》2008年03期
【摘要】:因特網(wǎng)給我們提供了巨大的信息量,在信息量極其豐富的Web資源中,蘊涵著大量有用的知識信息。信息爆炸而知識匱乏是當今人們所面臨的一個很重要的問題。通過搜索引擎來查找信息將不容易定位到用戶最感興趣的數(shù)據(jù)上。而通過Web信息抽取的自動化實現(xiàn),可以提高信息獲得的效率。信息抽取可以從網(wǎng)絡(luò)上分析和發(fā)現(xiàn)有用的信息,廢棄冗余的數(shù)據(jù),提取用戶知識領(lǐng)域的知識。本文分析了基于XML的Web信息提取,討論了相關(guān)技術(shù)在Web信息抽取中的應用并建立了相應的Web信息抽取模型,通過自動學習來獲取信息抽取規(guī)則,實現(xiàn)Web信息的自動提取。
[Abstract]:The Internet provides us with a huge amount of information. In the abundant Web resources, it contains a lot of useful knowledge information.Information explosion and lack of knowledge is a very important problem that people are facing today.Search engines to find information will not be easy to locate the user's most interesting data.Through the automation of Web information extraction, the efficiency of information acquisition can be improved.Information extraction can analyze and find useful information from the network, discard redundant data, and extract user knowledge in the domain of knowledge.This paper analyzes the Web information extraction based on XML, discusses the application of related techniques in Web information extraction, and establishes the corresponding Web information extraction model. The rules of information extraction are obtained by automatic learning, and the automatic extraction of Web information is realized.
【作者單位】: 中山大學計算機科學系 中山大學計算機科學系 中山大學計算機科學系 中山大學計算機科學系 中山大學計算機科學系 中山大學計算機科學系
【基金】:國家自然科學基金項目(60373081,60673135) 廣東省自然科學基金項目(04105503,5003348) 教育部“新世紀優(yōu)秀人才支持計劃”資助項目
【分類號】:TP312.2
【相似文獻】
相關(guān)期刊論文 前10條
1 盧正鼎,董澤鋒;文法推斷與HMM相結(jié)合的信息提取[J];計算機工程與科學;2005年08期
2 張友華;熊范綸;杭小樹;;基于WEB的增量式數(shù)據(jù)挖掘的研究與應用[J];模式識別與人工智能;2004年04期
3 鄭思婷;楊p芑,
本文編號:1756933
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1756933.html
最近更新
教材專著