特定領(lǐng)域知識(shí)庫的構(gòu)建與簡(jiǎn)報(bào)生成
本文選題:特定領(lǐng)域 切入點(diǎn):網(wǎng)頁去噪 出處:《北京工業(yè)大學(xué)》2014年碩士論文
【摘要】:特定領(lǐng)域知識(shí)庫的構(gòu)建與簡(jiǎn)報(bào)生成研究工作,是在人們由互聯(lián)網(wǎng)獲取知識(shí)相對(duì)比較困難的背景下提出來的,主要研究目標(biāo)是從大量網(wǎng)頁中提取知識(shí),并組織成綜合報(bào)告提供給用戶。本文的研究工作是對(duì)由互聯(lián)網(wǎng)獲取到的信息進(jìn)行加工,從這些信息中提取知識(shí),以特定的知識(shí)表示方式構(gòu)建成知識(shí)庫,根據(jù)用戶提問生成綜合報(bào)告反饋給用戶。通過本文的工作,可以節(jié)省用戶由互聯(lián)網(wǎng)上搜索知識(shí)的時(shí)間,并且?guī)椭脩魧?duì)知識(shí)進(jìn)行了自動(dòng)綜合。 特定領(lǐng)域知識(shí)庫的構(gòu)建與簡(jiǎn)報(bào)生成研究工作主要包括三方面的研究?jī)?nèi)容:原始數(shù)據(jù)獲取與處理工作,知識(shí)庫構(gòu)建工作,簡(jiǎn)報(bào)生成工作。本文在這三方面的工作中主要有以下三點(diǎn)貢獻(xiàn): 第一,在原始數(shù)據(jù)處理工作中,對(duì)于網(wǎng)頁數(shù)據(jù)的去噪工作,,進(jìn)行了啟發(fā)式與統(tǒng)計(jì)相結(jié)合的網(wǎng)頁去噪方法。該方法可以通過調(diào)節(jié)閾值來改變網(wǎng)頁去噪的力度,使最終得到的網(wǎng)頁正文內(nèi)容完整,結(jié)構(gòu)簡(jiǎn)單,不包含任何噪音。這種網(wǎng)頁去噪方法在效率上也明顯高于傳統(tǒng)的基于啟發(fā)式規(guī)則的去噪方法。 第二,在構(gòu)建領(lǐng)域知識(shí)庫的研究中,對(duì)適合本課題研究領(lǐng)域的知識(shí)表示方式進(jìn)行了研究。根據(jù)不同的知識(shí)類型設(shè)計(jì)對(duì)應(yīng)的知識(shí)表示形式,最終設(shè)計(jì)了實(shí)體元知識(shí)和事件元知識(shí)兩種形式,構(gòu)建了兩類知識(shí)的知識(shí)庫,分別為包含234條知識(shí)的實(shí)體元知識(shí)庫和包含3158條知識(shí)的事件元知識(shí)庫。兩個(gè)知識(shí)庫結(jié)構(gòu)簡(jiǎn)單,有層次性,方便自動(dòng)存儲(chǔ)知識(shí)和讀取知識(shí)。 第三,在設(shè)計(jì)自動(dòng)生成簡(jiǎn)報(bào)的研究中,根據(jù)本課題研究的領(lǐng)域特點(diǎn),設(shè)計(jì)實(shí)現(xiàn)了一個(gè)在用戶受限提問方式下為用戶自動(dòng)生成云計(jì)算公司綜合報(bào)告的系統(tǒng)。應(yīng)用簡(jiǎn)報(bào)自動(dòng)生成系統(tǒng)最終可以實(shí)現(xiàn)234個(gè)云計(jì)算公司的云計(jì)算活動(dòng)綜合簡(jiǎn)報(bào),通過驗(yàn)證實(shí)現(xiàn)的綜合簡(jiǎn)報(bào),說明本文設(shè)計(jì)的從互聯(lián)網(wǎng)獲取知識(shí)到組織為綜合報(bào)告反饋給用戶的研究方案是可行的。
[Abstract]:The research work of knowledge base building and briefing generation in specific domain is put forward under the background that it is relatively difficult for people to obtain knowledge from the Internet. The main research goal is to extract knowledge from a large number of web pages.And organize into a comprehensive report to provide to the user.The research work of this paper is to process the information obtained from the Internet, extract the knowledge from the information, construct a knowledge base by a specific knowledge representation, and generate a comprehensive report feedback to the user according to the user's questions.Through the work of this paper, we can save the time for users to search knowledge on the Internet, and help users to synthesize knowledge automatically.The research work of knowledge base building and briefing generation in specific domain mainly includes three aspects: the acquisition and processing of raw data, the construction of knowledge base, and the production of briefing papers.In these three aspects of work, this paper mainly has the following three contributions:Firstly, in the process of raw data processing, a method combining heuristic and statistics to de-noising the web page data is proposed.This method can adjust the threshold value to change the intensity of web page denoising, so that the final text of the web page is complete, simple in structure and without any noise.The efficiency of this method is obviously higher than that of the traditional heuristic rule based method.Secondly, in the research of constructing domain knowledge base, the knowledge representation method suitable for this research field is studied.According to different knowledge types, the corresponding knowledge representation forms are designed. Finally, two forms of entity meta-knowledge and event meta-knowledge are designed, and the knowledge base of two kinds of knowledge is constructed.They are the entity meta-knowledge base containing 234 pieces of knowledge and the event meta-knowledge base containing 3158 pieces of knowledge.The two knowledge bases are simple in structure, hierarchical and convenient for automatically storing and reading knowledge.Thirdly, according to the characteristics of the research field, we design and implement a system to automatically generate the comprehensive report of cloud computing companies for users under the mode of user limited questions.The application briefing automatic generation system can finally realize 234 cloud computing companies' comprehensive briefing on cloud computing activities, through the verification of the implementation of the comprehensive briefing,It shows that the research scheme designed in this paper is feasible to obtain knowledge from the Internet to give feedback to users for comprehensive reports.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許躍軍;;政府資源領(lǐng)域知識(shí)庫的構(gòu)建方法[J];中國(guó)信息界;2008年06期
2 吳建絨;;論基于本體的領(lǐng)域知識(shí)庫構(gòu)建[J];科技創(chuàng)新導(dǎo)報(bào);2010年30期
3 李愛國(guó);;領(lǐng)域知識(shí)庫的研究與設(shè)計(jì)[J];電子設(shè)計(jì)工程;2011年16期
4 姜婷婷;韓捷;;淺談基于知識(shí)點(diǎn)建立領(lǐng)域知識(shí)庫[J];黑龍江科技信息;2011年36期
5 徐天偉;;基于本體的領(lǐng)域知識(shí)庫構(gòu)建及推理研究[J];云南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
6 袁新娣;邱桃榮;徐新愛;;基于本體的教學(xué)領(lǐng)域知識(shí)庫建模研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年13期
7 王迎春;蔡?hào)|風(fēng);葉娜;;基于實(shí)體-屬性框架的領(lǐng)域知識(shí)庫構(gòu)建[J];沈陽航空航天大學(xué)學(xué)報(bào);2011年02期
8 王文璞;林木輝;;基于本體的領(lǐng)域知識(shí)庫構(gòu)建方法研究[J];福建電腦;2008年08期
9 李海剛;尹萬嶺;;基于本體的新產(chǎn)品開發(fā)領(lǐng)域知識(shí)庫模型研究[J];科技管理研究;2009年08期
10 姜婷婷;呂匯新;王建華;;ITS中基于知識(shí)點(diǎn)關(guān)系的領(lǐng)域知識(shí)庫的建立[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào);2009年01期
相關(guān)會(huì)議論文 前4條
1 于楠;朱靖波;陳文亮;;領(lǐng)域知識(shí)庫的構(gòu)建機(jī)制[A];第二屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
2 李勇;李曉峰;;面向領(lǐng)域知識(shí)庫的電信業(yè)務(wù)本體創(chuàng)建[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 鄭妍;肖桐;朱靖波;;基于Bootstrapping的領(lǐng)域多詞串自動(dòng)獲取[A];第四屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
4 蔣宏潮;王大亮;班曉娟;張德政;;基于Petri網(wǎng)的業(yè)務(wù)流程評(píng)估[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 周茜;基于本體的教學(xué)領(lǐng)域知識(shí)庫研究[D];廣西師范大學(xué);2011年
2 王迎春;基于實(shí)體—屬性框架的航空領(lǐng)域知識(shí)庫的構(gòu)建及應(yīng)用[D];沈陽航空航天大學(xué);2011年
3 司圣濤;領(lǐng)域知識(shí)庫的構(gòu)建方法及其應(yīng)用研究[D];昆明理工大學(xué);2009年
4 程紫光;面向領(lǐng)域知識(shí)庫構(gòu)建的實(shí)體識(shí)別及關(guān)系抽取技術(shù)[D];哈爾濱工業(yè)大學(xué);2014年
5 于楠;基于Ontology的領(lǐng)域知識(shí)庫層次分類體系的構(gòu)建[D];東北大學(xué);2005年
6 劉靜;基于MAS的遠(yuǎn)程教育系統(tǒng)領(lǐng)域知識(shí)庫的研究[D];河南理工大學(xué);2009年
7 張佳;基于ontology的領(lǐng)域知識(shí)庫的構(gòu)建與集成實(shí)現(xiàn)[D];貴州大學(xué);2006年
8 倪海峰;基于領(lǐng)域知識(shí)庫的程序代碼挖掘系統(tǒng)研究[D];東華大學(xué);2009年
9 吳坤;基于Ontology的外匯領(lǐng)域知識(shí)庫的研究和實(shí)現(xiàn)[D];浙江大學(xué);2010年
10 董超;領(lǐng)域科學(xué)數(shù)據(jù)語義映射研究與應(yīng)用[D];河北科技大學(xué);2014年
本文編號(hào):1711888
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1711888.html