基于web的工業(yè)產(chǎn)品知識圖譜構(gòu)建及應(yīng)用
本文選題:知識圖譜 + 實(shí)體識別; 參考:《沈陽航空航天大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)+時代的到來,無論是企業(yè)還是個人對于網(wǎng)絡(luò)資源的依賴都將顯得尤為凸出。目前,網(wǎng)絡(luò)上關(guān)于工業(yè)產(chǎn)品的資源有很多,涉及到在線百科,垂直網(wǎng)站和電商網(wǎng)站等,如何將這些不同的“知識”融合在一起,繪制出一個產(chǎn)品與產(chǎn)品之間,產(chǎn)品及其屬性之間的知識圖譜,一直是研究者們致力的方向。由于web上工業(yè)產(chǎn)品的信息更新速度快,而知識圖譜的內(nèi)容也是不斷動態(tài)更新的,因此為了及時地向圖譜中補(bǔ)充產(chǎn)品的最新信息,本文將web作為構(gòu)建產(chǎn)品知識圖譜的信息來源,將web中包含產(chǎn)品信息的非結(jié)構(gòu)化文本作為語料資源,對其進(jìn)行實(shí)體識別和實(shí)體關(guān)系抽取研究。在實(shí)體識別方面,本文提出了一種基于混合模型的方法來識別產(chǎn)品名稱、產(chǎn)品屬性及屬性值三類實(shí)體,并根據(jù)產(chǎn)品屬性的特點(diǎn),將其分為通用屬性和專用屬性兩類,對于通用屬性及其屬性值的識別,采用了基于規(guī)則的方法,對于產(chǎn)品名稱、專用屬性及其屬性值的識別,采用了兩階段的方法,實(shí)驗(yàn)表明,該方法融合了規(guī)則、邊界后處理、CRF與SVM的優(yōu)勢,無論在效果還是效率上均取得了令人滿意的結(jié)果。在實(shí)體關(guān)系抽取方面,本文以句子為單位,采用模式匹配的方法對產(chǎn)品名稱、產(chǎn)品屬性、屬性值三元組進(jìn)行抽取,通過對模式的不斷豐富和完善,該方法的抽取結(jié)果能夠很好的反應(yīng)出文本中的產(chǎn)品信息。最后,設(shè)計實(shí)現(xiàn)了基于web的工業(yè)產(chǎn)品知識圖譜構(gòu)建及應(yīng)用系統(tǒng)。該系統(tǒng)集成了信息采集模塊和知識圖譜構(gòu)建模塊,其中信息采集模塊可以實(shí)時采集網(wǎng)絡(luò)上的信息資源,而知識圖譜構(gòu)建模塊可以抽取出其中的結(jié)構(gòu)化信息,然后利用Neo4j圖數(shù)據(jù)庫進(jìn)行圖譜展示,并實(shí)現(xiàn)了產(chǎn)品信息可視化和相關(guān)產(chǎn)品推薦的應(yīng)用。
[Abstract]:With the advent of the Internet era, the dependence of enterprises and individuals on network resources will be particularly prominent. At present, there are a lot of resources about industrial products on the Internet, including online encyclopedia, vertical websites and e-commerce websites, how to combine these different "knowledge" to draw a product and product. The knowledge map between products and their attributes has been the direction of researchers. Because the information of industrial products on web is updated quickly, and the content of knowledge map is constantly updated, in order to supplement the latest information of product in time, this paper regards web as the source of information to construct product knowledge map. The unstructured text containing product information in web is used as a corpus resource for entity recognition and entity relation extraction. In the aspect of entity recognition, this paper proposes a hybrid model based method to identify product name, product attribute and attribute value. According to the characteristics of product attribute, it can be divided into general attribute and special attribute. For the recognition of general attributes and their attribute values, a rule-based method is adopted. For the recognition of product names, special attributes and their attribute values, a two-stage method is adopted. The advantages of CRF and SVM obtained satisfactory results both in effect and efficiency. In the aspect of entity relation extraction, this paper takes sentence as unit, adopts pattern matching method to extract product name, product attribute and attribute value triple, through the continuous enrichment and perfection of pattern, The result of this method can well reflect the product information in the text. Finally, the industrial product knowledge map construction and application system based on web are designed and implemented. The system integrates information acquisition module and knowledge map building module, in which the information collection module can collect information resources on the network in real time, and the knowledge map building module can extract the structured information. Then the Neo4j graph database is used to display the graph, and the application of product information visualization and related product recommendation is realized.
【學(xué)位授予單位】:沈陽航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉玉嬌;琚生根;李若晨;金玉;;基于深度學(xué)習(xí)的中文微博命名實(shí)體識別[J];四川大學(xué)學(xué)報(工程科學(xué)版);2016年S2期
2 余麗;陸鋒;劉希亮;;開放式地理實(shí)體關(guān)系抽取的Bootstrapping方法[J];測繪學(xué)報;2016年05期
3 馮蘊(yùn)天;張宏軍;郝文寧;陳剛;;基于深度信念網(wǎng)絡(luò)的命名實(shí)體識別[J];計算機(jī)科學(xué);2016年04期
4 孫東普;朱鳴華;林鴻飛;;中文專利屬性值對抽取技術(shù)及應(yīng)用[J];計算機(jī)工程與科學(xué);2016年04期
5 陸曉華;張宇;錢進(jìn);;基于圖數(shù)據(jù)庫的電影知識圖譜應(yīng)用研究[J];現(xiàn)代計算機(jī)(專業(yè)版);2016年07期
6 王仁武;袁毅;袁旭萍;;基于深度學(xué)習(xí)與圖數(shù)據(jù)庫構(gòu)建中文商業(yè)知識圖譜的探索研究[J];圖書與情報;2016年01期
7 周詳;李少波;楊觀賜;;服裝類商品屬性實(shí)體識別[J];計算機(jī)應(yīng)用;2015年07期
8 秦兵;劉安安;劉挺;;無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J];計算機(jī)研究與發(fā)展;2015年05期
9 劉方馳;鐘志農(nóng);雷霖;吳燁;;基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J];兵工自動化;2013年09期
10 郭劍毅;李真;余正濤;張志坤;;領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預(yù)測[J];南京大學(xué)學(xué)報(自然科學(xué)版);2012年04期
相關(guān)碩士學(xué)位論文 前4條
1 李芳;基于條件隨機(jī)場的兩階段中文微博命名實(shí)體識別研究[D];西華大學(xué);2015年
2 劉麗佳;領(lǐng)域?qū)嶓w屬性關(guān)系抽取方法研究[D];昆明理工大學(xué);2015年
3 闞琪;基于條件隨機(jī)場的命名實(shí)體識別及實(shí)體關(guān)系識別的研究與應(yīng)用[D];北京交通大學(xué);2015年
4 朱姍;基于本體的電子產(chǎn)品實(shí)體關(guān)系抽取研究[D];西安電子科技大學(xué);2011年
,本文編號:1884605
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1884605.html