信息化教育領域的Web信息抽取技術研究
發(fā)布時間:2019-08-28 11:45
【摘要】: 計算機技術和互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展,使Web發(fā)展成為一個全球的、巨大的、分布和共享的信息空間,Web作為一個龐大的資源庫,給人們的學習、生活和工作帶來了巨大的便利。然而面對Web上的海量信息,人們卻陷入了“數(shù)據(jù)豐富,知識貧乏”的尷尬境地。由于目前的Web數(shù)據(jù)大多以HTML的形式出現(xiàn),使得應用程序無法直接獲取Web上的信息。Web信息抽取技術正是在這一背景下應運而生。 本文分析了一些典型的信息抽取系統(tǒng)技術特點,并探討了在信息化教育中,從學習者的需求出發(fā),抽取個性化的服務信息。本文實現(xiàn)了一個基于文檔結構樹的個性化信息抽取系統(tǒng)。本系統(tǒng)主要分為兩個部分,抽取規(guī)則的定義以及抽取規(guī)則的執(zhí)行。在抽取規(guī)則的定義階段,首先將獲取的HTML結構的網(wǎng)頁進行規(guī)范化處理,轉換為格式規(guī)范、語義清晰的XML文件,生成對應文檔的DOM樹,然后由用戶指定待抽取信息的位置以及對應的目的表的模式,最后根據(jù)這些信息生成抽取規(guī)則。在抽取規(guī)則執(zhí)行階段,系統(tǒng)根據(jù)用戶定義的抽取規(guī)則抽取Web數(shù)據(jù)并將其加載到指定位置的目的表中。
【圖文】:
報分析和檢測、比價購物、自動文摘、文本分類等各種應用提供服務。廣義上信息抽取技術的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結果則變?yōu)橄鄳慕Y構數(shù)據(jù)。廣義上信息抽取的過程如圖2.1所示。已有的結構化數(shù)據(jù)、介抽取出的結構化數(shù)據(jù)廠//本1尹工文一l日日﨎Web網(wǎng)頁/廠/對抽取出的信塾報告/J析分息…為義圖2.1信息抽取過程示意圖信息抽取技術的最終目的就是開發(fā)實用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術在軍事、經(jīng)濟、醫(yī)學、科學研究等領域有著極大的應用空間。
XML不僅可以表達數(shù)據(jù)的內(nèi)容,同時可以特定的應用,開發(fā)人員可以創(chuàng)建特定的數(shù)據(jù)類型,通過使可以在不同的系統(tǒng)之間交換異構的結構化數(shù)據(jù),使用XM構化數(shù)據(jù)的集成等。XML數(shù)據(jù)模型與半結構化數(shù)據(jù)之間許多半結構化數(shù)據(jù)模型的研究可以容易地應用到XML數(shù)XML的語法結構式良好的XML文檔由三個部分組成:一個可選的序言(p(body),由一個和多個元素組成,其形式為一個可能包含字選的尾聲(ePilog),其內(nèi)容包括注釋、處理指令(proeessingi/或緊跟元素樹后面的空白。言和尾聲部分都是可選的,下面我們就主要以圖3.2中的。
【學位授予單位】:天津師范大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:G434
本文編號:2530130
【圖文】:
報分析和檢測、比價購物、自動文摘、文本分類等各種應用提供服務。廣義上信息抽取技術的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結果則變?yōu)橄鄳慕Y構數(shù)據(jù)。廣義上信息抽取的過程如圖2.1所示。已有的結構化數(shù)據(jù)、介抽取出的結構化數(shù)據(jù)廠//本1尹工文一l日日﨎Web網(wǎng)頁/廠/對抽取出的信塾報告/J析分息…為義圖2.1信息抽取過程示意圖信息抽取技術的最終目的就是開發(fā)實用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術在軍事、經(jīng)濟、醫(yī)學、科學研究等領域有著極大的應用空間。
XML不僅可以表達數(shù)據(jù)的內(nèi)容,同時可以特定的應用,開發(fā)人員可以創(chuàng)建特定的數(shù)據(jù)類型,通過使可以在不同的系統(tǒng)之間交換異構的結構化數(shù)據(jù),使用XM構化數(shù)據(jù)的集成等。XML數(shù)據(jù)模型與半結構化數(shù)據(jù)之間許多半結構化數(shù)據(jù)模型的研究可以容易地應用到XML數(shù)XML的語法結構式良好的XML文檔由三個部分組成:一個可選的序言(p(body),由一個和多個元素組成,其形式為一個可能包含字選的尾聲(ePilog),其內(nèi)容包括注釋、處理指令(proeessingi/或緊跟元素樹后面的空白。言和尾聲部分都是可選的,下面我們就主要以圖3.2中的。
【學位授予單位】:天津師范大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:G434
【參考文獻】
相關期刊論文 前10條
1 李龍;教育技術學科的定義體系——一論教育技術學科的理論與實踐[J];電化教育研究;2003年09期
2 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術研究進展[J];河北大學學報(自然科學版);2003年01期
3 ;中國科學院學部委員羅沛霖同志在計算機工程與應用學會成立大會上的講話[J];計算機工程與應用;1986年01期
4 胡睿,張冬茉,杜蓬;基于結點語義關系的信息抽取技術[J];計算機工程;2001年04期
5 朱明,王軍,王俊普;基于多層模式的多記錄網(wǎng)頁信息抽取方法[J];計算機工程;2001年09期
6 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學報;2002年05期
7 楊文柱,李智玲,徐林昊,李天柱;基于信息抽取的Web查詢系統(tǒng)的設計與實現(xiàn)[J];計算機應用;2003年02期
8 王敬普;林亞平;周順先;岳文;;基于包裝器模型的文本信息抽取[J];計算機應用;2006年03期
9 陸科進,李新穎;基于Ontology的文本信息抽取[J];計算機應用研究;2003年07期
10 何典,宋中山;基于Web挖掘的個性化網(wǎng)絡教育研究[J];計算機與現(xiàn)代化;2005年05期
,本文編號:2530130
本文鏈接:http://sikaile.net/jiaoyulunwen/jgkg/2530130.html
最近更新
教材專著