中文企業(yè)知識圖譜構(gòu)建與分析
本文選題:知識圖譜 + 信息抽取; 參考:《華東師范大學》2016年碩士論文
【摘要】:Web資源蘊含了海量的結(jié)構(gòu)化和非結(jié)構(gòu)化知識,將這些碎片化知識進行抽取、整理和融合成為一個大規(guī)模知識圖譜是互聯(lián)網(wǎng)發(fā)展的趨勢。知識圖譜根據(jù)其包含的知識范疇被細分為開放知識圖譜和垂直領(lǐng)域知識圖譜。盡管開放知識圖譜在近幾年得到了巨大的發(fā)展,但是它們在垂直領(lǐng)域中并沒有得到深入地應(yīng)用,許多應(yīng)用場景對垂直領(lǐng)域知識圖譜提出了很大的需求,因此本文提出構(gòu)建商業(yè)領(lǐng)域的企業(yè)知識圖譜。本文從上市公司的公報數(shù)據(jù)中抽取了企業(yè)之間的商業(yè)往來關(guān)系,并從新聞文本數(shù)據(jù)中抽取了企業(yè)所發(fā)生的重大事件和事件摘要,最后對比分析了知識圖譜和社交網(wǎng)絡(luò)在圖結(jié)構(gòu)上的統(tǒng)計特征。本文的主要貢獻如下:·提出了構(gòu)建企業(yè)知識圖譜的框架,將垂直領(lǐng)域的關(guān)系抽取任務(wù)抽象成分類問題,通過訓練最大熵模型抽取企業(yè)之間不同類型的商業(yè)往來關(guān)系,關(guān)系抽取的準確率平均達到85%以上,部分特定關(guān)系的準確率達到95%以上,相比基于開放領(lǐng)域的關(guān)系抽取方法,本文方法的F1值平均提高了12.16%。本文從109萬篇上市公司的公報數(shù)據(jù)和250萬篇新聞數(shù)據(jù)中抽取了超過5萬以上的命名實體和14萬以上的實體關(guān)系,構(gòu)建了完整的企業(yè)知識圖譜。·采用聚類算法從新聞文檔中抽取了企業(yè)的相關(guān)事件以及事件的發(fā)展過程,并提出基于事件關(guān)鍵詞的詞集覆蓋優(yōu)化算法抽取了事件的摘要。通過定義摘要的評估指標并和四種基準模型進行對比體現(xiàn)了本文方法的優(yōu)越性,通過一個案例分析體現(xiàn)了本文方法在真實數(shù)據(jù)集上的有效性。本文總共抽取了3,073家上市公司包括8,205個新聞事件以及事件的摘要!膱D的角度出發(fā),對同一知識圖譜不同子圖之間、不同類型的知識圖譜之間以及知識圖譜和社交網(wǎng)絡(luò)之間在圖結(jié)構(gòu)上的統(tǒng)計特征進行了全面的對比分析。將四種知識圖譜和兩種社交網(wǎng)絡(luò)在13個單值統(tǒng)計特征、4個分布統(tǒng)計特征上的表現(xiàn)進行分析,發(fā)現(xiàn)它們在多種統(tǒng)計特征上都有很大的差異,比如連通子圖分布、節(jié)點凝聚因子、三角關(guān)系的數(shù)量等。通過對比分析這些統(tǒng)計特征,可以為知識圖譜的數(shù)據(jù)管理提供參考意見。本文還對知識圖譜的語義關(guān)系進行了關(guān)聯(lián)度分析,表明關(guān)聯(lián)度很高的語義關(guān)系之間通常具有很高的主題相關(guān)性。本文在構(gòu)建企業(yè)知識圖譜的過程中,對比了垂直領(lǐng)域知識圖譜和開放知識圖譜構(gòu)建方法的區(qū)別,并根據(jù)垂直領(lǐng)域的特定問題給出了特定的解決方案,對一般領(lǐng)域知識圖譜的構(gòu)建具有實踐意義。本文對比分析了知識圖譜和社交網(wǎng)絡(luò)在圖結(jié)構(gòu)上的統(tǒng)計特征,對知識圖譜的數(shù)據(jù)管理比如存儲、索引、查詢優(yōu)化等具有借鑒意義。
[Abstract]:Web resources contain a large amount of structured and unstructured knowledge. It is the trend of the Internet to extract, collate and merge these fragmented knowledge into a large-scale knowledge map. The knowledge map is subdivided into open knowledge map and vertical domain knowledge map according to the knowledge category it contains. Although the open knowledge map has been greatly developed in recent years, it has not been applied in the vertical field, and many application scenarios have put forward a great demand for the vertical domain knowledge map. Therefore, this paper proposes to construct the enterprise knowledge map in the field of business. In this paper, the business relations between enterprises are extracted from the bulletin data of the listed companies, and the important events and event summaries of the enterprises are extracted from the news text data. Finally, the statistical features of knowledge map and social network in graph structure are compared and analyzed. The main contributions of this paper are as follows: a framework of constructing enterprise knowledge map is proposed, which abstracts the relationship extraction tasks in vertical domain into classification problems, and extracts different types of business relationships among enterprises by training maximum entropy model. The accuracy of relation extraction is more than 85% on average, and that of some specific relationships is more than 95%. Compared with the open domain approach, the F1 value of this method is 12.16% higher than that of the open domain method. In this paper, more than 50, 000 named entities and more than 140000 entity relationships are extracted from 1.09 million public company bulletins and 2.5 million news data. A complete enterprise knowledge map is constructed, and the related events and the development process of events are extracted from news documents by clustering algorithm, and a word set coverage optimization algorithm based on event keywords is proposed to extract the summary of events. By defining the evaluation index of the summary and comparing it with the four benchmark models, the superiority of this method is demonstrated, and the effectiveness of this method on the real data set is demonstrated by a case study. In this paper, a total of 3073 listed companies including 8205 news events and abstracts of events are extracted. The statistical features of graph structure between different types of knowledge maps and between knowledge maps and social networks are compared and analyzed. Four kinds of knowledge maps and two kinds of social networks are analyzed on 13 single value statistical features and 4 distribution statistical features, and it is found that they are very different in many statistical features, such as connected subgraph distribution, node aggregation factor. The number of triangular relationships, etc. By comparing and analyzing these statistical features, we can provide reference for data management of knowledge map. This paper also analyzes the semantic relationship of knowledge atlas, which shows that there is usually a high thematic correlation between semantic relationships with high correlation degree. In the process of constructing enterprise knowledge map, this paper compares the difference between vertical domain knowledge map and open knowledge map, and gives specific solutions according to the specific problems in vertical domain. It has practical significance for the construction of general domain knowledge map. In this paper, the statistical features of knowledge map and social network in graph structure are compared and analyzed, which can be used for reference in data management of knowledge map such as storage, index, query optimization and so on.
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 鄧擘;鄭彥寧;傅繼彬;;漢語實體關(guān)系模式的自動獲取研究[J];計算機科學;2010年02期
2 牟晉娟;包宏;;中文實體關(guān)系抽取研究[J];計算機工程與設(shè)計;2009年15期
3 朱姍;;基于規(guī)則和本體的實體關(guān)系抽取系統(tǒng)研究[J];情報雜志;2010年S2期
4 車萬翔,劉挺,李生;實體關(guān)系自動抽取[J];中文信息學報;2005年02期
5 朱鴻宇;劉瑰;陳左寧;唐福華;;實體關(guān)系識別中長距離依賴問題的研究[J];小型微型計算機系統(tǒng);2008年02期
6 周利娟;林鴻飛;羅文華;;基于實體關(guān)系的犯罪網(wǎng)絡(luò)識別機制[J];計算機應(yīng)用研究;2011年03期
7 徐健;張智雄;吳振新;;實體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書情報技術(shù);2008年08期
8 李小紅;錢龍華;;基于自舉的弱指導中文實體關(guān)系抽取研究[J];高科技與產(chǎn)業(yè)化;2010年09期
9 董靜;孫樂;馮元勇;黃瑞紅;;中文實體關(guān)系抽取中的特征選擇研究[J];中文信息學報;2007年04期
10 黃晨;錢龍華;周國棟;朱巧明;;基于卷積樹核的無指導中文實體關(guān)系抽取研究[J];中文信息學報;2010年04期
相關(guān)會議論文 前3條
1 車萬翔;劉挺;李生;;實體關(guān)系自動抽取[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
2 莊成龍;錢龍華;周國棟;;基于樹核函數(shù)的實體關(guān)系抽取方法研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
3 徐芬;王挺;陳火旺;;基于SVM方法的中文實體關(guān)系抽取[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年
相關(guān)博士學位論文 前4條
1 陳忱;面向Web的實體關(guān)系查詢與分析關(guān)鍵技術(shù)研究[D];東北大學;2013年
2 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學技術(shù)大學;2010年
3 張宏濤;面向生物文本的實體關(guān)系自動抽取問題研究[D];清華大學;2012年
4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學;2007年
相關(guān)碩士學位論文 前10條
1 施琦;無監(jiān)督中文實體關(guān)系抽取研究[D];中國地質(zhì)大學(北京);2015年
2 林家欣;基于多源知識的地理選擇題答題方法研究[D];哈爾濱工業(yè)大學;2015年
3 劉紹毓;實體關(guān)系抽取關(guān)鍵技術(shù)研究[D];解放軍信息工程大學;2015年
4 胡春艷;中文開放式實體關(guān)系抽取技術(shù)研究[D];東北大學;2014年
5 程文亮;中文企業(yè)知識圖譜構(gòu)建與分析[D];華東師范大學;2016年
6 劉龍;音樂領(lǐng)域全局實體關(guān)系抽取研究[D];哈爾濱工業(yè)大學;2010年
7 雷春雅;領(lǐng)域?qū)嶓w關(guān)系自動抽取研究[D];昆明理工大學;2011年
8 劉安安;開放式中文實體關(guān)系抽取研究[D];哈爾濱工業(yè)大學;2013年
9 陳超;基于互聯(lián)網(wǎng)的二元實體關(guān)系抽取研究[D];華東師范大學;2013年
10 周藍s,
本文編號:1862938
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1862938.html