基于描述邏輯的Web文本挖掘
發(fā)布時(shí)間:2021-06-17 18:46
近年來伴隨人工智能(Artificial Intelligence)的發(fā)展,描述邏輯(Description Logics,簡寫為DLs)這種底層技術(shù)研究也變?yōu)檠芯繜狳c(diǎn)。事實(shí)上描述邏輯不僅在人工智能方面有成就,在農(nóng)業(yè)、天文學(xué)、基因工程、信息安全、能源管理、地球科學(xué)、機(jī)械等多種領(lǐng)域都有應(yīng)用。尤其在OWL2標(biāo)準(zhǔn)下,彌補(bǔ)OWL標(biāo)準(zhǔn)的不足,促使Web本體語言上得到了長足發(fā)展。與此同時(shí)Web發(fā)展也相當(dāng)迅速,根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)的統(tǒng)計(jì)報(bào)告,截至2018年6月我國的網(wǎng)站數(shù)量已經(jīng)達(dá)到了544萬個(gè)。如此規(guī)模的網(wǎng)站給精確搜索和Web文本內(nèi)容的潛在語義(Latent Semantic)發(fā)現(xiàn)帶來不小壓力。為了解決Web上潛在數(shù)據(jù)關(guān)系處理的問題,在Web文本挖掘過程中引入描述邏輯用來進(jìn)行知識(shí)表示。Web文本挖掘過程分為三步:Web數(shù)據(jù)預(yù)處理(包含數(shù)據(jù)抽。;Web文本挖掘;后續(xù)處理和結(jié)果評(píng)價(jià)。本文的側(cè)重點(diǎn)在Web文本挖掘和結(jié)果評(píng)價(jià)上。由于Web頁面具有其復(fù)雜性,具體體現(xiàn)在它的非結(jié)構(gòu)化數(shù)據(jù)形式上,前期處理可采用簡單的數(shù)據(jù)處理技術(shù),將其中的聲音、圖片、視頻信息等進(jìn)行刪除,僅保留文本數(shù)據(jù)。本文分別介紹...
【文章來源】:沈陽師范大學(xué)遼寧省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ALCABox算法規(guī)則描述邏輯是一階邏輯的一個(gè)可判定子集,因而能夠構(gòu)造出可靠完全的tableau
的 n 元關(guān)系,由此產(chǎn)生了 DLRn 元描述邏輯。在后續(xù)的C-language 描述邏輯和統(tǒng)一存在量化的 ALC-language 描本挖掘挖掘涉及到的關(guān)鍵問題有聚類、分類、信息抽取和檢索是一個(gè)有監(jiān)督的學(xué)習(xí)過程,它根據(jù)已標(biāo)記的訓(xùn)練集合找間的關(guān)系模型,然后利用這種學(xué)習(xí)到的關(guān)系模型對(duì)新的 Web 文本對(duì)象按照一定規(guī)則劃分成不同的類別,使得相似度低,這一過程就稱為聚類。Web 文本聚類是無監(jiān)督類方法有 K-Means、K-medoids,是基于距離的聚類,于網(wǎng)格的方法等。文本聚類模型如圖 2-3,首先對(duì)文本,然后使用算法對(duì)文本聚類成各個(gè)簇。Web 文本聚類搜索引擎有很大幫助。
圖 2-6 XML Schema 片段使用描述邏輯進(jìn)行推理其所基于的知識(shí)庫里包含兩種子庫,一種是 TBox,包含了 HTML 的各種術(shù)語即標(biāo)簽名稱,另一種是 ABox,所包含 HTML 的具體屬性斷言。知識(shí)庫表示為 К=<TBox,ABox>。TBox 是一個(gè)有限集合,TBox 通過概念描述的定義構(gòu)造,里面包含術(shù)語知識(shí) TBox 通常由具有有限個(gè)包含關(guān)系的數(shù)學(xué)結(jié)構(gòu)集合表示[34]。如圖 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【參考文獻(xiàn)】:
期刊論文
[1]基于ALCIF描述邏輯的Web頁面聚類[J]. 富豪,鄧立國. 現(xiàn)代計(jì)算機(jī). 2019(12)
[2]基于OWL+SKOS的期刊本體構(gòu)建與應(yīng)用[J]. 羅婷婷,李嬌,鮮國建,趙瑞雪,寇遠(yuǎn)濤. 數(shù)字圖書館論壇. 2018(12)
[3]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[4]模糊OWL 2本體到模糊關(guān)系數(shù)據(jù)庫映射形式化方法[J]. 李衛(wèi)軍,馬宗民,嚴(yán)麗,張富. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[5]描述邏輯εL■和εLU■表達(dá)力的刻畫與比較[J]. 申宇銘,郝天永,張倩生. 計(jì)算機(jī)學(xué)報(bào). 2018(04)
[6]EXPRESS向OWL2本體模型自動(dòng)轉(zhuǎn)換研究[J]. 袁滿,劉峰. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[7]C-OWL2:OWL2在云模型上的擴(kuò)展[J]. 駱力明,劉王寧,劉杰,周建設(shè),史金生. 北京理工大學(xué)學(xué)報(bào). 2017(12)
[8]結(jié)合內(nèi)容和標(biāo)簽的Web文本聚類研究[J]. 顧曉雪,章成志. 現(xiàn)代圖書情報(bào)技術(shù). 2014(11)
[9]基于主題的Web文本聚類方法[J]. 張萬山,肖瑤,梁俊杰,余敦輝. 計(jì)算機(jī)應(yīng)用. 2014(11)
[10]一種基于本體相似度計(jì)算的文本聚類算法研究[J]. 王剛,鐘國祥. 計(jì)算機(jī)科學(xué). 2010(09)
博士論文
[1]面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D]. 朱倩.江蘇大學(xué) 2011
[2]模糊數(shù)據(jù)庫支持的模糊描述邏輯與本體知識(shí)庫抽取和存儲(chǔ)關(guān)鍵技術(shù)的研究[D]. 張富.東北大學(xué) 2011
[3]模糊描述邏輯本體合取查詢研究[D]. 程經(jīng)緯.東北大學(xué) 2010
碩士論文
[1]基于一階邏輯的知識(shí)表示與自動(dòng)提取[D]. 王勇.電子科技大學(xué) 2015
本文編號(hào):3235725
【文章來源】:沈陽師范大學(xué)遼寧省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ALCABox算法規(guī)則描述邏輯是一階邏輯的一個(gè)可判定子集,因而能夠構(gòu)造出可靠完全的tableau
的 n 元關(guān)系,由此產(chǎn)生了 DLRn 元描述邏輯。在后續(xù)的C-language 描述邏輯和統(tǒng)一存在量化的 ALC-language 描本挖掘挖掘涉及到的關(guān)鍵問題有聚類、分類、信息抽取和檢索是一個(gè)有監(jiān)督的學(xué)習(xí)過程,它根據(jù)已標(biāo)記的訓(xùn)練集合找間的關(guān)系模型,然后利用這種學(xué)習(xí)到的關(guān)系模型對(duì)新的 Web 文本對(duì)象按照一定規(guī)則劃分成不同的類別,使得相似度低,這一過程就稱為聚類。Web 文本聚類是無監(jiān)督類方法有 K-Means、K-medoids,是基于距離的聚類,于網(wǎng)格的方法等。文本聚類模型如圖 2-3,首先對(duì)文本,然后使用算法對(duì)文本聚類成各個(gè)簇。Web 文本聚類搜索引擎有很大幫助。
圖 2-6 XML Schema 片段使用描述邏輯進(jìn)行推理其所基于的知識(shí)庫里包含兩種子庫,一種是 TBox,包含了 HTML 的各種術(shù)語即標(biāo)簽名稱,另一種是 ABox,所包含 HTML 的具體屬性斷言。知識(shí)庫表示為 К=<TBox,ABox>。TBox 是一個(gè)有限集合,TBox 通過概念描述的定義構(gòu)造,里面包含術(shù)語知識(shí) TBox 通常由具有有限個(gè)包含關(guān)系的數(shù)學(xué)結(jié)構(gòu)集合表示[34]。如圖 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【參考文獻(xiàn)】:
期刊論文
[1]基于ALCIF描述邏輯的Web頁面聚類[J]. 富豪,鄧立國. 現(xiàn)代計(jì)算機(jī). 2019(12)
[2]基于OWL+SKOS的期刊本體構(gòu)建與應(yīng)用[J]. 羅婷婷,李嬌,鮮國建,趙瑞雪,寇遠(yuǎn)濤. 數(shù)字圖書館論壇. 2018(12)
[3]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[4]模糊OWL 2本體到模糊關(guān)系數(shù)據(jù)庫映射形式化方法[J]. 李衛(wèi)軍,馬宗民,嚴(yán)麗,張富. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[5]描述邏輯εL■和εLU■表達(dá)力的刻畫與比較[J]. 申宇銘,郝天永,張倩生. 計(jì)算機(jī)學(xué)報(bào). 2018(04)
[6]EXPRESS向OWL2本體模型自動(dòng)轉(zhuǎn)換研究[J]. 袁滿,劉峰. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[7]C-OWL2:OWL2在云模型上的擴(kuò)展[J]. 駱力明,劉王寧,劉杰,周建設(shè),史金生. 北京理工大學(xué)學(xué)報(bào). 2017(12)
[8]結(jié)合內(nèi)容和標(biāo)簽的Web文本聚類研究[J]. 顧曉雪,章成志. 現(xiàn)代圖書情報(bào)技術(shù). 2014(11)
[9]基于主題的Web文本聚類方法[J]. 張萬山,肖瑤,梁俊杰,余敦輝. 計(jì)算機(jī)應(yīng)用. 2014(11)
[10]一種基于本體相似度計(jì)算的文本聚類算法研究[J]. 王剛,鐘國祥. 計(jì)算機(jī)科學(xué). 2010(09)
博士論文
[1]面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D]. 朱倩.江蘇大學(xué) 2011
[2]模糊數(shù)據(jù)庫支持的模糊描述邏輯與本體知識(shí)庫抽取和存儲(chǔ)關(guān)鍵技術(shù)的研究[D]. 張富.東北大學(xué) 2011
[3]模糊描述邏輯本體合取查詢研究[D]. 程經(jīng)緯.東北大學(xué) 2010
碩士論文
[1]基于一階邏輯的知識(shí)表示與自動(dòng)提取[D]. 王勇.電子科技大學(xué) 2015
本文編號(hào):3235725
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3235725.html
最近更新
教材專著