面向商品領(lǐng)域的類別樹半自動化構(gòu)建方法研究
本文關(guān)鍵詞:面向商品領(lǐng)域的類別樹半自動化構(gòu)建方法研究 出處:《華東師范大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 類別樹半自動化構(gòu)建 知識融合 類別聚類 詞向量 混合相似度
【摘要】:隨著電子商務(wù)的迅速發(fā)展,T2O(TV to Online)商業(yè)模式,即電子商務(wù)與媒體間合作的商業(yè)模式受到廣泛關(guān)注。這種商業(yè)模式實(shí)時向用戶推薦視頻中出現(xiàn)的商品。目前的推薦主要是人工給出商品購買鏈接,不標(biāo)注商品的相應(yīng)屬性和屬性值,為觀看者了解商品帶來不便。如果應(yīng)用開發(fā)者可以構(gòu)建來自不同電商的商品資源庫,利用商品類別樹對來源不同的商品進(jìn)行類別及相應(yīng)屬性的標(biāo)注,則用戶了解商品信息將更加方便;诖,本文研究面向商品領(lǐng)域的類別樹半自動化構(gòu)建。目前類別樹以人工構(gòu)建方法為主。人工構(gòu)建通常需要耗費(fèi)大量時間、精力和財力,且目前人工構(gòu)建的類別樹沒有商品的具體屬性。半自動化構(gòu)建包含商品屬性的類別樹將更符合應(yīng)用的需求。半自動化構(gòu)建類別樹的關(guān)鍵在于知識融合和類別聚類這兩個步驟。知識融合是指對異構(gòu)數(shù)據(jù)庫中相同概念的不同表達(dá)形式進(jìn)行融合,在類別樹構(gòu)建中主要用于融合類別的屬性;類別聚類是指自動將同類類別進(jìn)行聚類,減少構(gòu)建類別樹時需要的時間和人力成本,其關(guān)鍵工作在于類別相似度的計算。本文主要針對半結(jié)構(gòu)化文本屬性的融合和類別聚類進(jìn)行研究,具體貢獻(xiàn)如下:(1)本文提出一種基于Word2Vector和結(jié)構(gòu)信息的屬性匹配方法,以計算屬性間的相似度用于融合屬性。傳統(tǒng)基于知識庫或語義詞典的知識融合方法通過計算屬性相似度進(jìn)行屬性融合,但是同種類別的不同屬性之間存在強(qiáng)相關(guān)性,且知識庫或語義詞典會出現(xiàn)未登錄詞的情況,所以傳統(tǒng)方法效果不佳。本文通過分析半結(jié)構(gòu)化數(shù)據(jù),觀察到屬性值可以用于描述屬性,且相同屬性的屬性值存在強(qiáng)相關(guān)性的結(jié)構(gòu)信息。根據(jù)文本結(jié)構(gòu)信息,提出兩種基于Word2Vector計算屬性相似度的方法,以提高匹配的準(zhǔn)確率。(2)提出語義擴(kuò)充和語義補(bǔ)全的語義增益預(yù)處理方法,加強(qiáng)半結(jié)構(gòu)化文本的上下文聯(lián)系,更好地發(fā)現(xiàn)屬性值之間的語義關(guān)系用于屬性匹配。利用Word2Vector可以計算屬性值之間的相似度,但是半結(jié)構(gòu)化數(shù)據(jù)通常以屬性-屬性值的鍵值對方式出現(xiàn),文本的上下文聯(lián)系較弱,用Word2Vector直接對半結(jié)構(gòu)化文本進(jìn)行訓(xùn)練,得到的詞向量結(jié)果不佳。為解決這一問題,本文提出了一種加強(qiáng)半結(jié)構(gòu)化文本上下文語義聯(lián)系的預(yù)處理方法:語義擴(kuò)充,通過文本的結(jié)構(gòu)信息對屬性的屬性值進(jìn)行擴(kuò)充,加強(qiáng)屬性值的上下文聯(lián)系;語義補(bǔ)全,針對"雙值"屬性的屬性值,如"是"、"否",根據(jù)屬性與屬性值的聯(lián)系,對屬性值進(jìn)行補(bǔ)全,進(jìn)一步加強(qiáng)文本的上下文聯(lián)系。(3)提出了一種基于混合相似度的類別聚類算法。傳統(tǒng)的基于編輯距離的類別聚類算法,只考慮到類別名稱的字面特征,不能挖掘類別的語義特征、屬性特征等。本文提出了基于改進(jìn)編輯距離的類別相似度計算方法、基于屬性的類別相似度計算方法、基于關(guān)鍵詞的類別相似度計算方法和基于相關(guān)信息的類別相似度計算方法,并將其融合,表達(dá)了詞形特征、語義特征、屬性特征、關(guān)鍵詞特征和相關(guān)信息特征,提高了類別聚類的準(zhǔn)確率。(4)提出了一種基于編輯距離的評測指標(biāo)。融合結(jié)果和聚類結(jié)果,需要人工判斷結(jié)果的準(zhǔn)確率。但是對每個實(shí)驗(yàn)結(jié)果都以人工的方式判斷需要花費(fèi)大量的人力和時間,所以本文提出一種基于編輯距離的評測指標(biāo)——類編輯距離,基于編輯距離的思想計算實(shí)驗(yàn)結(jié)果通過移動、刪除和添加操作變成人工得到的標(biāo)準(zhǔn)結(jié)果所要花費(fèi)的代價,來評測實(shí)驗(yàn)結(jié)果,節(jié)省了大量的人力和時間。本文在三個不同領(lǐng)域的數(shù)據(jù)集上設(shè)計了多組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的基于結(jié)構(gòu)和語義信息的知識融合算法和基于混合相似度的類別聚類算法的有效性。同時,作者在本文提出的兩個算法基礎(chǔ)上設(shè)計并實(shí)現(xiàn)了商品領(lǐng)域類別樹管理系統(tǒng)CCTM。
[Abstract]:This paper studies semi - structured text attributes . The key of this paper is to construct a kind of attribute matching method based on Word2Vector and structure information . The key work of this paper is to construct the semantic gain preprocessing method based on Word2Vector and structure information . The key work of this paper is to improve the accuracy of the matching . This paper proposes a kind of clustering algorithm based on the editing distance , which is based on the classification similarity calculation method , the semantic feature , the attribute characteristic , the keyword characteristic and the classification similarity calculation method based on the editing distance .
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 杜小坤;李國徽;王江晴;帖軍;李艷紅;;基于信息元的模式匹配方法[J];軟件學(xué)報;2015年10期
2 宋文杰;顧彥慧;周俊生;孫玉杰;嚴(yán)杰;曲維光;;多策略同義詞獲取方法研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2015年02期
3 李國徽;杜小坤;杜建強(qiáng);;基于部分函數(shù)依賴的結(jié)構(gòu)匹配方法[J];計算機(jī)學(xué)報;2010年02期
4 陸勇;章成志;侯漢清;;基于百科資源的多策略中文同義詞自動抽取研究[J];中國圖書館學(xué)報;2010年01期
5 閆中敏;李慶忠;曹魯慧;孔蘭菊;董永權(quán);丁艷輝;;Web查詢接口集成中基于本體的模式匹配方法(英文)[J];Journal of Southeast University(English Edition);2008年03期
6 董振東;董強(qiáng);郝長伶;;知網(wǎng)的理論發(fā)現(xiàn)[J];中文信息學(xué)報;2007年04期
7 余恩運(yùn);申德榮;張旭;王廣奇;于戈;;SMGM:一種基于模式結(jié)構(gòu)和已有匹配知識的模式匹配模型[J];計算機(jī)科學(xué);2007年03期
8 陸勇;侯漢清;;基于模式匹配的漢語同義詞自動識別[J];情報學(xué)報;2006年06期
,本文編號:1366100
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1366100.html