天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

中文企業(yè)知識(shí)圖譜構(gòu)建與分析

發(fā)布時(shí)間:2018-05-08 20:24

  本文選題:知識(shí)圖譜 + 信息抽取。 參考:《華東師范大學(xué)》2016年碩士論文


【摘要】:Web資源蘊(yùn)含了海量的結(jié)構(gòu)化和非結(jié)構(gòu)化知識(shí),將這些碎片化知識(shí)進(jìn)行抽取、整理和融合成為一個(gè)大規(guī)模知識(shí)圖譜是互聯(lián)網(wǎng)發(fā)展的趨勢(shì)。知識(shí)圖譜根據(jù)其包含的知識(shí)范疇被細(xì)分為開放知識(shí)圖譜和垂直領(lǐng)域知識(shí)圖譜。盡管開放知識(shí)圖譜在近幾年得到了巨大的發(fā)展,但是它們?cè)诖怪鳖I(lǐng)域中并沒有得到深入地應(yīng)用,許多應(yīng)用場(chǎng)景對(duì)垂直領(lǐng)域知識(shí)圖譜提出了很大的需求,因此本文提出構(gòu)建商業(yè)領(lǐng)域的企業(yè)知識(shí)圖譜。本文從上市公司的公報(bào)數(shù)據(jù)中抽取了企業(yè)之間的商業(yè)往來關(guān)系,并從新聞文本數(shù)據(jù)中抽取了企業(yè)所發(fā)生的重大事件和事件摘要,最后對(duì)比分析了知識(shí)圖譜和社交網(wǎng)絡(luò)在圖結(jié)構(gòu)上的統(tǒng)計(jì)特征。本文的主要貢獻(xiàn)如下:·提出了構(gòu)建企業(yè)知識(shí)圖譜的框架,將垂直領(lǐng)域的關(guān)系抽取任務(wù)抽象成分類問題,通過訓(xùn)練最大熵模型抽取企業(yè)之間不同類型的商業(yè)往來關(guān)系,關(guān)系抽取的準(zhǔn)確率平均達(dá)到85%以上,部分特定關(guān)系的準(zhǔn)確率達(dá)到95%以上,相比基于開放領(lǐng)域的關(guān)系抽取方法,本文方法的F1值平均提高了12.16%。本文從109萬篇上市公司的公報(bào)數(shù)據(jù)和250萬篇新聞數(shù)據(jù)中抽取了超過5萬以上的命名實(shí)體和14萬以上的實(shí)體關(guān)系,構(gòu)建了完整的企業(yè)知識(shí)圖譜!げ捎镁垲愃惴◤男侣勎臋n中抽取了企業(yè)的相關(guān)事件以及事件的發(fā)展過程,并提出基于事件關(guān)鍵詞的詞集覆蓋優(yōu)化算法抽取了事件的摘要。通過定義摘要的評(píng)估指標(biāo)并和四種基準(zhǔn)模型進(jìn)行對(duì)比體現(xiàn)了本文方法的優(yōu)越性,通過一個(gè)案例分析體現(xiàn)了本文方法在真實(shí)數(shù)據(jù)集上的有效性。本文總共抽取了3,073家上市公司包括8,205個(gè)新聞事件以及事件的摘要!膱D的角度出發(fā),對(duì)同一知識(shí)圖譜不同子圖之間、不同類型的知識(shí)圖譜之間以及知識(shí)圖譜和社交網(wǎng)絡(luò)之間在圖結(jié)構(gòu)上的統(tǒng)計(jì)特征進(jìn)行了全面的對(duì)比分析。將四種知識(shí)圖譜和兩種社交網(wǎng)絡(luò)在13個(gè)單值統(tǒng)計(jì)特征、4個(gè)分布統(tǒng)計(jì)特征上的表現(xiàn)進(jìn)行分析,發(fā)現(xiàn)它們?cè)诙喾N統(tǒng)計(jì)特征上都有很大的差異,比如連通子圖分布、節(jié)點(diǎn)凝聚因子、三角關(guān)系的數(shù)量等。通過對(duì)比分析這些統(tǒng)計(jì)特征,可以為知識(shí)圖譜的數(shù)據(jù)管理提供參考意見。本文還對(duì)知識(shí)圖譜的語(yǔ)義關(guān)系進(jìn)行了關(guān)聯(lián)度分析,表明關(guān)聯(lián)度很高的語(yǔ)義關(guān)系之間通常具有很高的主題相關(guān)性。本文在構(gòu)建企業(yè)知識(shí)圖譜的過程中,對(duì)比了垂直領(lǐng)域知識(shí)圖譜和開放知識(shí)圖譜構(gòu)建方法的區(qū)別,并根據(jù)垂直領(lǐng)域的特定問題給出了特定的解決方案,對(duì)一般領(lǐng)域知識(shí)圖譜的構(gòu)建具有實(shí)踐意義。本文對(duì)比分析了知識(shí)圖譜和社交網(wǎng)絡(luò)在圖結(jié)構(gòu)上的統(tǒng)計(jì)特征,對(duì)知識(shí)圖譜的數(shù)據(jù)管理比如存儲(chǔ)、索引、查詢優(yōu)化等具有借鑒意義。
[Abstract]:Web resources contain a large amount of structured and unstructured knowledge. It is the trend of the Internet to extract, collate and merge these fragmented knowledge into a large-scale knowledge map. The knowledge map is subdivided into open knowledge map and vertical domain knowledge map according to the knowledge category it contains. Although the open knowledge map has been greatly developed in recent years, it has not been applied in the vertical field, and many application scenarios have put forward a great demand for the vertical domain knowledge map. Therefore, this paper proposes to construct the enterprise knowledge map in the field of business. In this paper, the business relations between enterprises are extracted from the bulletin data of the listed companies, and the important events and event summaries of the enterprises are extracted from the news text data. Finally, the statistical features of knowledge map and social network in graph structure are compared and analyzed. The main contributions of this paper are as follows: a framework of constructing enterprise knowledge map is proposed, which abstracts the relationship extraction tasks in vertical domain into classification problems, and extracts different types of business relationships among enterprises by training maximum entropy model. The accuracy of relation extraction is more than 85% on average, and that of some specific relationships is more than 95%. Compared with the open domain approach, the F1 value of this method is 12.16% higher than that of the open domain method. In this paper, more than 50, 000 named entities and more than 140000 entity relationships are extracted from 1.09 million public company bulletins and 2.5 million news data. A complete enterprise knowledge map is constructed, and the related events and the development process of events are extracted from news documents by clustering algorithm, and a word set coverage optimization algorithm based on event keywords is proposed to extract the summary of events. By defining the evaluation index of the summary and comparing it with the four benchmark models, the superiority of this method is demonstrated, and the effectiveness of this method on the real data set is demonstrated by a case study. In this paper, a total of 3073 listed companies including 8205 news events and abstracts of events are extracted. The statistical features of graph structure between different types of knowledge maps and between knowledge maps and social networks are compared and analyzed. Four kinds of knowledge maps and two kinds of social networks are analyzed on 13 single value statistical features and 4 distribution statistical features, and it is found that they are very different in many statistical features, such as connected subgraph distribution, node aggregation factor. The number of triangular relationships, etc. By comparing and analyzing these statistical features, we can provide reference for data management of knowledge map. This paper also analyzes the semantic relationship of knowledge atlas, which shows that there is usually a high thematic correlation between semantic relationships with high correlation degree. In the process of constructing enterprise knowledge map, this paper compares the difference between vertical domain knowledge map and open knowledge map, and gives specific solutions according to the specific problems in vertical domain. It has practical significance for the construction of general domain knowledge map. In this paper, the statistical features of knowledge map and social network in graph structure are compared and analyzed, which can be used for reference in data management of knowledge map such as storage, index, query optimization and so on.
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄧擘;鄭彥寧;傅繼彬;;漢語(yǔ)實(shí)體關(guān)系模式的自動(dòng)獲取研究[J];計(jì)算機(jī)科學(xué);2010年02期

2 牟晉娟;包宏;;中文實(shí)體關(guān)系抽取研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年15期

3 朱姍;;基于規(guī)則和本體的實(shí)體關(guān)系抽取系統(tǒng)研究[J];情報(bào)雜志;2010年S2期

4 車萬翔,劉挺,李生;實(shí)體關(guān)系自動(dòng)抽取[J];中文信息學(xué)報(bào);2005年02期

5 朱鴻宇;劉瑰;陳左寧;唐福華;;實(shí)體關(guān)系識(shí)別中長(zhǎng)距離依賴問題的研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年02期

6 周利娟;林鴻飛;羅文華;;基于實(shí)體關(guān)系的犯罪網(wǎng)絡(luò)識(shí)別機(jī)制[J];計(jì)算機(jī)應(yīng)用研究;2011年03期

7 徐健;張智雄;吳振新;;實(shí)體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2008年08期

8 李小紅;錢龍華;;基于自舉的弱指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];高科技與產(chǎn)業(yè)化;2010年09期

9 董靜;孫樂;馮元勇;黃瑞紅;;中文實(shí)體關(guān)系抽取中的特征選擇研究[J];中文信息學(xué)報(bào);2007年04期

10 黃晨;錢龍華;周國(guó)棟;朱巧明;;基于卷積樹核的無指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];中文信息學(xué)報(bào);2010年04期

相關(guān)會(huì)議論文 前3條

1 車萬翔;劉挺;李生;;實(shí)體關(guān)系自動(dòng)抽取[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

2 莊成龍;錢龍華;周國(guó)棟;;基于樹核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

3 徐芬;王挺;陳火旺;;基于SVM方法的中文實(shí)體關(guān)系抽取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

相關(guān)博士學(xué)位論文 前4條

1 陳忱;面向Web的實(shí)體關(guān)系查詢與分析關(guān)鍵技術(shù)研究[D];東北大學(xué);2013年

2 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

3 張宏濤;面向生物文本的實(shí)體關(guān)系自動(dòng)抽取問題研究[D];清華大學(xué);2012年

4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 施琦;無監(jiān)督中文實(shí)體關(guān)系抽取研究[D];中國(guó)地質(zhì)大學(xué)(北京);2015年

2 林家欣;基于多源知識(shí)的地理選擇題答題方法研究[D];哈爾濱工業(yè)大學(xué);2015年

3 劉紹毓;實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2015年

4 胡春艷;中文開放式實(shí)體關(guān)系抽取技術(shù)研究[D];東北大學(xué);2014年

5 程文亮;中文企業(yè)知識(shí)圖譜構(gòu)建與分析[D];華東師范大學(xué);2016年

6 劉龍;音樂領(lǐng)域全局實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2010年

7 雷春雅;領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取研究[D];昆明理工大學(xué);2011年

8 劉安安;開放式中文實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2013年

9 陳超;基于互聯(lián)網(wǎng)的二元實(shí)體關(guān)系抽取研究[D];華東師范大學(xué);2013年

10 周藍(lán)s,

本文編號(hào):1862938


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1862938.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶983a6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com