基于描述邏輯的Web文本挖掘
發(fā)布時間:2021-06-17 18:46
近年來伴隨人工智能(Artificial Intelligence)的發(fā)展,描述邏輯(Description Logics,簡寫為DLs)這種底層技術研究也變?yōu)檠芯繜狳c。事實上描述邏輯不僅在人工智能方面有成就,在農(nóng)業(yè)、天文學、基因工程、信息安全、能源管理、地球科學、機械等多種領域都有應用。尤其在OWL2標準下,彌補OWL標準的不足,促使Web本體語言上得到了長足發(fā)展。與此同時Web發(fā)展也相當迅速,根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)的統(tǒng)計報告,截至2018年6月我國的網(wǎng)站數(shù)量已經(jīng)達到了544萬個。如此規(guī)模的網(wǎng)站給精確搜索和Web文本內(nèi)容的潛在語義(Latent Semantic)發(fā)現(xiàn)帶來不小壓力。為了解決Web上潛在數(shù)據(jù)關系處理的問題,在Web文本挖掘過程中引入描述邏輯用來進行知識表示。Web文本挖掘過程分為三步:Web數(shù)據(jù)預處理(包含數(shù)據(jù)抽。;Web文本挖掘;后續(xù)處理和結果評價。本文的側重點在Web文本挖掘和結果評價上。由于Web頁面具有其復雜性,具體體現(xiàn)在它的非結構化數(shù)據(jù)形式上,前期處理可采用簡單的數(shù)據(jù)處理技術,將其中的聲音、圖片、視頻信息等進行刪除,僅保留文本數(shù)據(jù)。本文分別介紹...
【文章來源】:沈陽師范大學遼寧省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
ALCABox算法規(guī)則描述邏輯是一階邏輯的一個可判定子集,因而能夠構造出可靠完全的tableau
的 n 元關系,由此產(chǎn)生了 DLRn 元描述邏輯。在后續(xù)的C-language 描述邏輯和統(tǒng)一存在量化的 ALC-language 描本挖掘挖掘涉及到的關鍵問題有聚類、分類、信息抽取和檢索是一個有監(jiān)督的學習過程,它根據(jù)已標記的訓練集合找間的關系模型,然后利用這種學習到的關系模型對新的 Web 文本對象按照一定規(guī)則劃分成不同的類別,使得相似度低,這一過程就稱為聚類。Web 文本聚類是無監(jiān)督類方法有 K-Means、K-medoids,是基于距離的聚類,于網(wǎng)格的方法等。文本聚類模型如圖 2-3,首先對文本,然后使用算法對文本聚類成各個簇。Web 文本聚類搜索引擎有很大幫助。
圖 2-6 XML Schema 片段使用描述邏輯進行推理其所基于的知識庫里包含兩種子庫,一種是 TBox,包含了 HTML 的各種術語即標簽名稱,另一種是 ABox,所包含 HTML 的具體屬性斷言。知識庫表示為 К=<TBox,ABox>。TBox 是一個有限集合,TBox 通過概念描述的定義構造,里面包含術語知識 TBox 通常由具有有限個包含關系的數(shù)學結構集合表示[34]。如圖 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【參考文獻】:
期刊論文
[1]基于ALCIF描述邏輯的Web頁面聚類[J]. 富豪,鄧立國. 現(xiàn)代計算機. 2019(12)
[2]基于OWL+SKOS的期刊本體構建與應用[J]. 羅婷婷,李嬌,鮮國建,趙瑞雪,寇遠濤. 數(shù)字圖書館論壇. 2018(12)
[3]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學學報(自然科學版). 2018(06)
[4]模糊OWL 2本體到模糊關系數(shù)據(jù)庫映射形式化方法[J]. 李衛(wèi)軍,馬宗民,嚴麗,張富. 東北大學學報(自然科學版). 2018(04)
[5]描述邏輯εL■和εLU■表達力的刻畫與比較[J]. 申宇銘,郝天永,張倩生. 計算機學報. 2018(04)
[6]EXPRESS向OWL2本體模型自動轉換研究[J]. 袁滿,劉峰. 吉林大學學報(信息科學版). 2018(01)
[7]C-OWL2:OWL2在云模型上的擴展[J]. 駱力明,劉王寧,劉杰,周建設,史金生. 北京理工大學學報. 2017(12)
[8]結合內(nèi)容和標簽的Web文本聚類研究[J]. 顧曉雪,章成志. 現(xiàn)代圖書情報技術. 2014(11)
[9]基于主題的Web文本聚類方法[J]. 張萬山,肖瑤,梁俊杰,余敦輝. 計算機應用. 2014(11)
[10]一種基于本體相似度計算的文本聚類算法研究[J]. 王剛,鐘國祥. 計算機科學. 2010(09)
博士論文
[1]面向自由文本的細粒度關系抽取的關鍵技術研究[D]. 朱倩.江蘇大學 2011
[2]模糊數(shù)據(jù)庫支持的模糊描述邏輯與本體知識庫抽取和存儲關鍵技術的研究[D]. 張富.東北大學 2011
[3]模糊描述邏輯本體合取查詢研究[D]. 程經(jīng)緯.東北大學 2010
碩士論文
[1]基于一階邏輯的知識表示與自動提取[D]. 王勇.電子科技大學 2015
本文編號:3235725
【文章來源】:沈陽師范大學遼寧省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
ALCABox算法規(guī)則描述邏輯是一階邏輯的一個可判定子集,因而能夠構造出可靠完全的tableau
的 n 元關系,由此產(chǎn)生了 DLRn 元描述邏輯。在后續(xù)的C-language 描述邏輯和統(tǒng)一存在量化的 ALC-language 描本挖掘挖掘涉及到的關鍵問題有聚類、分類、信息抽取和檢索是一個有監(jiān)督的學習過程,它根據(jù)已標記的訓練集合找間的關系模型,然后利用這種學習到的關系模型對新的 Web 文本對象按照一定規(guī)則劃分成不同的類別,使得相似度低,這一過程就稱為聚類。Web 文本聚類是無監(jiān)督類方法有 K-Means、K-medoids,是基于距離的聚類,于網(wǎng)格的方法等。文本聚類模型如圖 2-3,首先對文本,然后使用算法對文本聚類成各個簇。Web 文本聚類搜索引擎有很大幫助。
圖 2-6 XML Schema 片段使用描述邏輯進行推理其所基于的知識庫里包含兩種子庫,一種是 TBox,包含了 HTML 的各種術語即標簽名稱,另一種是 ABox,所包含 HTML 的具體屬性斷言。知識庫表示為 К=<TBox,ABox>。TBox 是一個有限集合,TBox 通過概念描述的定義構造,里面包含術語知識 TBox 通常由具有有限個包含關系的數(shù)學結構集合表示[34]。如圖 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【參考文獻】:
期刊論文
[1]基于ALCIF描述邏輯的Web頁面聚類[J]. 富豪,鄧立國. 現(xiàn)代計算機. 2019(12)
[2]基于OWL+SKOS的期刊本體構建與應用[J]. 羅婷婷,李嬌,鮮國建,趙瑞雪,寇遠濤. 數(shù)字圖書館論壇. 2018(12)
[3]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學學報(自然科學版). 2018(06)
[4]模糊OWL 2本體到模糊關系數(shù)據(jù)庫映射形式化方法[J]. 李衛(wèi)軍,馬宗民,嚴麗,張富. 東北大學學報(自然科學版). 2018(04)
[5]描述邏輯εL■和εLU■表達力的刻畫與比較[J]. 申宇銘,郝天永,張倩生. 計算機學報. 2018(04)
[6]EXPRESS向OWL2本體模型自動轉換研究[J]. 袁滿,劉峰. 吉林大學學報(信息科學版). 2018(01)
[7]C-OWL2:OWL2在云模型上的擴展[J]. 駱力明,劉王寧,劉杰,周建設,史金生. 北京理工大學學報. 2017(12)
[8]結合內(nèi)容和標簽的Web文本聚類研究[J]. 顧曉雪,章成志. 現(xiàn)代圖書情報技術. 2014(11)
[9]基于主題的Web文本聚類方法[J]. 張萬山,肖瑤,梁俊杰,余敦輝. 計算機應用. 2014(11)
[10]一種基于本體相似度計算的文本聚類算法研究[J]. 王剛,鐘國祥. 計算機科學. 2010(09)
博士論文
[1]面向自由文本的細粒度關系抽取的關鍵技術研究[D]. 朱倩.江蘇大學 2011
[2]模糊數(shù)據(jù)庫支持的模糊描述邏輯與本體知識庫抽取和存儲關鍵技術的研究[D]. 張富.東北大學 2011
[3]模糊描述邏輯本體合取查詢研究[D]. 程經(jīng)緯.東北大學 2010
碩士論文
[1]基于一階邏輯的知識表示與自動提取[D]. 王勇.電子科技大學 2015
本文編號:3235725
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3235725.html
最近更新
教材專著