基于web的工業(yè)產(chǎn)品知識(shí)圖譜構(gòu)建及應(yīng)用
本文選題:知識(shí)圖譜 + 實(shí)體識(shí)別; 參考:《沈陽(yáng)航空航天大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),無(wú)論是企業(yè)還是個(gè)人對(duì)于網(wǎng)絡(luò)資源的依賴都將顯得尤為凸出。目前,網(wǎng)絡(luò)上關(guān)于工業(yè)產(chǎn)品的資源有很多,涉及到在線百科,垂直網(wǎng)站和電商網(wǎng)站等,如何將這些不同的“知識(shí)”融合在一起,繪制出一個(gè)產(chǎn)品與產(chǎn)品之間,產(chǎn)品及其屬性之間的知識(shí)圖譜,一直是研究者們致力的方向。由于web上工業(yè)產(chǎn)品的信息更新速度快,而知識(shí)圖譜的內(nèi)容也是不斷動(dòng)態(tài)更新的,因此為了及時(shí)地向圖譜中補(bǔ)充產(chǎn)品的最新信息,本文將web作為構(gòu)建產(chǎn)品知識(shí)圖譜的信息來(lái)源,將web中包含產(chǎn)品信息的非結(jié)構(gòu)化文本作為語(yǔ)料資源,對(duì)其進(jìn)行實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究。在實(shí)體識(shí)別方面,本文提出了一種基于混合模型的方法來(lái)識(shí)別產(chǎn)品名稱、產(chǎn)品屬性及屬性值三類實(shí)體,并根據(jù)產(chǎn)品屬性的特點(diǎn),將其分為通用屬性和專用屬性兩類,對(duì)于通用屬性及其屬性值的識(shí)別,采用了基于規(guī)則的方法,對(duì)于產(chǎn)品名稱、專用屬性及其屬性值的識(shí)別,采用了兩階段的方法,實(shí)驗(yàn)表明,該方法融合了規(guī)則、邊界后處理、CRF與SVM的優(yōu)勢(shì),無(wú)論在效果還是效率上均取得了令人滿意的結(jié)果。在實(shí)體關(guān)系抽取方面,本文以句子為單位,采用模式匹配的方法對(duì)產(chǎn)品名稱、產(chǎn)品屬性、屬性值三元組進(jìn)行抽取,通過(guò)對(duì)模式的不斷豐富和完善,該方法的抽取結(jié)果能夠很好的反應(yīng)出文本中的產(chǎn)品信息。最后,設(shè)計(jì)實(shí)現(xiàn)了基于web的工業(yè)產(chǎn)品知識(shí)圖譜構(gòu)建及應(yīng)用系統(tǒng)。該系統(tǒng)集成了信息采集模塊和知識(shí)圖譜構(gòu)建模塊,其中信息采集模塊可以實(shí)時(shí)采集網(wǎng)絡(luò)上的信息資源,而知識(shí)圖譜構(gòu)建模塊可以抽取出其中的結(jié)構(gòu)化信息,然后利用Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行圖譜展示,并實(shí)現(xiàn)了產(chǎn)品信息可視化和相關(guān)產(chǎn)品推薦的應(yīng)用。
[Abstract]:With the advent of the Internet era, the dependence of enterprises and individuals on network resources will be particularly prominent. At present, there are a lot of resources about industrial products on the Internet, including online encyclopedia, vertical websites and e-commerce websites, how to combine these different "knowledge" to draw a product and product. The knowledge map between products and their attributes has been the direction of researchers. Because the information of industrial products on web is updated quickly, and the content of knowledge map is constantly updated, in order to supplement the latest information of product in time, this paper regards web as the source of information to construct product knowledge map. The unstructured text containing product information in web is used as a corpus resource for entity recognition and entity relation extraction. In the aspect of entity recognition, this paper proposes a hybrid model based method to identify product name, product attribute and attribute value. According to the characteristics of product attribute, it can be divided into general attribute and special attribute. For the recognition of general attributes and their attribute values, a rule-based method is adopted. For the recognition of product names, special attributes and their attribute values, a two-stage method is adopted. The advantages of CRF and SVM obtained satisfactory results both in effect and efficiency. In the aspect of entity relation extraction, this paper takes sentence as unit, adopts pattern matching method to extract product name, product attribute and attribute value triple, through the continuous enrichment and perfection of pattern, The result of this method can well reflect the product information in the text. Finally, the industrial product knowledge map construction and application system based on web are designed and implemented. The system integrates information acquisition module and knowledge map building module, in which the information collection module can collect information resources on the network in real time, and the knowledge map building module can extract the structured information. Then the Neo4j graph database is used to display the graph, and the application of product information visualization and related product recommendation is realized.
【學(xué)位授予單位】:沈陽(yáng)航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉玉嬌;琚生根;李若晨;金玉;;基于深度學(xué)習(xí)的中文微博命名實(shí)體識(shí)別[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2016年S2期
2 余麗;陸鋒;劉希亮;;開(kāi)放式地理實(shí)體關(guān)系抽取的Bootstrapping方法[J];測(cè)繪學(xué)報(bào);2016年05期
3 馮蘊(yùn)天;張宏軍;郝文寧;陳剛;;基于深度信念網(wǎng)絡(luò)的命名實(shí)體識(shí)別[J];計(jì)算機(jī)科學(xué);2016年04期
4 孫東普;朱鳴華;林鴻飛;;中文專利屬性值對(duì)抽取技術(shù)及應(yīng)用[J];計(jì)算機(jī)工程與科學(xué);2016年04期
5 陸曉華;張宇;錢進(jìn);;基于圖數(shù)據(jù)庫(kù)的電影知識(shí)圖譜應(yīng)用研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2016年07期
6 王仁武;袁毅;袁旭萍;;基于深度學(xué)習(xí)與圖數(shù)據(jù)庫(kù)構(gòu)建中文商業(yè)知識(shí)圖譜的探索研究[J];圖書(shū)與情報(bào);2016年01期
7 周詳;李少波;楊觀賜;;服裝類商品屬性實(shí)體識(shí)別[J];計(jì)算機(jī)應(yīng)用;2015年07期
8 秦兵;劉安安;劉挺;;無(wú)指導(dǎo)的中文開(kāi)放式實(shí)體關(guān)系抽取[J];計(jì)算機(jī)研究與發(fā)展;2015年05期
9 劉方馳;鐘志農(nóng);雷霖;吳燁;;基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J];兵工自動(dòng)化;2013年09期
10 郭劍毅;李真;余正濤;張志坤;;領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預(yù)測(cè)[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
相關(guān)碩士學(xué)位論文 前4條
1 李芳;基于條件隨機(jī)場(chǎng)的兩階段中文微博命名實(shí)體識(shí)別研究[D];西華大學(xué);2015年
2 劉麗佳;領(lǐng)域?qū)嶓w屬性關(guān)系抽取方法研究[D];昆明理工大學(xué);2015年
3 闞琪;基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別及實(shí)體關(guān)系識(shí)別的研究與應(yīng)用[D];北京交通大學(xué);2015年
4 朱姍;基于本體的電子產(chǎn)品實(shí)體關(guān)系抽取研究[D];西安電子科技大學(xué);2011年
,本文編號(hào):1884605
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1884605.html