基于特征學(xué)習(xí)與關(guān)鍵詞精化的圖像句子標(biāo)注研究
發(fā)布時間:2018-06-05 14:29
本文選題:圖像句子標(biāo)注 + 特征學(xué)習(xí) ; 參考:《武漢大學(xué)》2016年博士論文
【摘要】:Web上包含大量異構(gòu)媒體,如圖像、文本、視頻等,它們之間存在語義關(guān)聯(lián),分析并利用這些關(guān)聯(lián)有助于更好地組織、管理及檢索多媒體資源。近年,電子商務(wù)迅猛發(fā)展,它為探尋異構(gòu)媒體間的語義關(guān)聯(lián)提供了良好的試驗平臺:為商品標(biāo)注語義信息豐富且連貫、流暢的文本,即實現(xiàn)圖像句子標(biāo)注,建立圖像和文本之間穩(wěn)定、可靠的跨媒體關(guān)聯(lián)。研究意義:1)同時關(guān)注機(jī)器視覺和自然語言處理兩個領(lǐng)域內(nèi)的研究成果,并促使領(lǐng)域間方法、模型、算法的相互融合,進(jìn)而進(jìn)發(fā)新的思想火花,推動理論研究不斷前進(jìn);2)有助于轉(zhuǎn)變電子商務(wù)網(wǎng)站的數(shù)據(jù)管理方式:在自動圖像句子標(biāo)注基礎(chǔ)上,僅需加入少量人工修訂便可高效、準(zhǔn)確地發(fā)布或更新海量商品信息;3)有助于提高圖像檢索查全率,改善用戶的檢索交互體驗。圖像句子標(biāo)注(面向商品)存在的主要問題:1)圖像特征學(xué)習(xí)方法偏簡單。識別圖像中的關(guān)鍵視覺特性是標(biāo)注的重要前提,應(yīng)抽取判別能力強(qiáng)、解釋能力好的特征,以準(zhǔn)確描述圖像內(nèi)容;2)句子連貫性有待提升。連貫性是句子可讀性、可理解性的重要保障,應(yīng)兼顧語義相關(guān)性和句法模式關(guān)系,生成連貫、流暢且蘊(yùn)含豐富語義信息的句子;3)標(biāo)注中噪聲干擾嚴(yán)重。抑制噪聲干擾能改善標(biāo)注性能,應(yīng)設(shè)計有針對性的噪聲抑制策略,削弱噪聲對標(biāo)注的不利影響。故本文從如下三個方面展開研究:1、特征學(xué)習(xí)是圖像句子標(biāo)注的重要前提。提出基于高效匹配核(Efficient Match Kernels,即EMK)和核特征(Kernel Descriptors,即KDES)模型的特征學(xué)習(xí)策略:1)基于EMK模型抽取圖像SIFT-EMK特征,采用多核學(xué)習(xí)(Multiple Kernel Learning,即MKL)模型對形狀、紋理、SIFT-EMK等特征做后融合,生成新特征MKF (Multiple Kernel Feature,即MKF);2)基于KDES模型抽取圖像Grad-KDES、Shape-KDES、Color-KDES特征,采用MKL模型對KDES特征做后融合,生成新特征MK-KDES-J(J=1,...,4)。實驗表明:MKF、MK-KDES-1等特征能準(zhǔn)確刻畫圖像中的關(guān)鍵視覺內(nèi)容,為生成連貫、流暢的句子奠定重要基礎(chǔ)。2、句子的連貫性是其可讀性、可理解性的重要保障,它也是評判標(biāo)注模型優(yōu)劣的關(guān)鍵指標(biāo)。設(shè)計自然語言生成(Natural Language Generation,即NLG)模型,以構(gòu)造修飾性短語(N元詞序列),連貫、流暢地描述圖像內(nèi)容:1)基于TF-IDF特征及圖像間視覺相似度,設(shè)計語義相關(guān)度計算模型(Semantic Correlation Computing Model,即SCCM),摘取描述圖像內(nèi)容的關(guān)鍵詞。采用N-gram模型約束單詞間語義相關(guān)性和句法模式關(guān)系,生成語義信息豐富且連貫、流暢的修飾性短語;2)設(shè)計詞序列“拼積木”(Word Sequence Blocks Building,即WSBB)模型:采用SCCM摘取關(guān)鍵詞,詞向量化單詞并基于COS標(biāo)準(zhǔn)度量單詞間語義相關(guān)性,并運(yùn)用句法模式約束單詞間句法關(guān)系。最終,WSBB模型輸出一組N元詞序列(N=1,...,4)。實驗表明:N-gram, WSBB等模型均有助于生成連貫、流暢的短語(詞序列),以作為句子的核心成分。3、句子標(biāo)注中存在噪聲干擾,噪聲包括語義信息噪聲和句法結(jié)構(gòu)噪聲。提出基于關(guān)鍵詞精化(Tag Refinement,即TR)和句法樹(Syntactic Tree,即ST)的標(biāo)注模型:1)構(gòu)建多層TR策略:①執(zhí)行第1次TR:在SCCM中,用絕對排序(Absolute Rank,即AR)特征替換TF-IDF特征,以提升正確關(guān)鍵詞的權(quán)重。②執(zhí)行第2次TR:在WSBB模型中,設(shè)置單詞的語義相關(guān)度評分閾值γ,進(jìn)一步篩選與圖像內(nèi)容語義相關(guān)的單詞;2)基于單詞上下文(Term-Context,即TC)關(guān)系生成稀疏型詞向量,運(yùn)用PPMI (Positive Pointwise Mutual Information,即PPMI)和PDI (Positive Distance Information,即PDI)標(biāo)準(zhǔn)分別度量單詞間語義相關(guān)性和句法模式關(guān)系,把執(zhí)行TR策略后的關(guān)鍵詞組合成N元詞序列;3)基于句法樹將一組N元詞序列遞歸地組合成完整句子;4)運(yùn)用深度學(xué)習(xí)模型訓(xùn)練出緊湊型的分布式詞向量(Distributional Word Embeddings,即DWE),取代基于TC的稀疏型詞向量,更準(zhǔn)確、高效地度量單詞間語義相關(guān)性。實驗表明:多層TR策略可有效抑制語義信息噪聲干擾,PDI、ST則可有效抑制句法結(jié)構(gòu)噪聲干擾,而DWE的引入也有助于減少詞序列生成中的噪聲干擾。論文工作的主要創(chuàng)新:創(chuàng)新1:對圖像執(zhí)行基于EMK、KDES模型的特征學(xué)習(xí),并運(yùn)用MKL模型完成特征后融合,生成能準(zhǔn)確解釋圖像中關(guān)鍵紋理、形狀特性的MKF、MK-KDES-1等新特征。創(chuàng)新2:構(gòu)造SCCM,摘取描述圖像內(nèi)容的關(guān)鍵單詞,基于N-gram模型約束單詞間語義相關(guān)性及句法模式關(guān)系,生成語義信息豐富且連貫、流暢的修飾性短語,以作為句子的核心成分。創(chuàng)新3:提出基于關(guān)鍵詞精化和句法樹的標(biāo)注模型:1)設(shè)計多層關(guān)鍵詞精化策略,抑制語義信息噪聲干擾;2)設(shè)計并優(yōu)化WSBB模型,生成描述圖像核心內(nèi)容的N元詞序列;3)基于句法樹將一組N元詞序列遞歸地組合成語義信息豐富、句法結(jié)構(gòu)準(zhǔn)確的句子,抑制句法結(jié)構(gòu)噪聲干擾并提升模型標(biāo)注性能。
[Abstract]:In recent years , the rapid development of e - commerce provides a good test platform for exploring the semantic association between heterogeneous media .
2 ) the data management mode of the electronic commerce website can be changed : on the basis of automatic image sentence marking , only a small amount of manual revision is added to effectively and accurately publish or update mass commodity information ;
3 ) It is helpful to improve the image retrieval efficiency and improve the user ' s retrieval interactive experience . The main problems in image sentence labeling ( commodity - oriented ) : 1 ) The image characteristic learning method is simple . The key visual characteristics in the recognition image are important prerequisites for marking , and the characteristics of strong judgment ability and good interpretation ability should be extracted to accurately describe the image content ;
2 ) The consistency of sentences is to be improved . Coherence is an important guarantee of sentence readability and comprehensibility , and the relationship between semantic relevance and syntactic pattern should be taken into account , resulting in a coherent , smooth and rich sentence containing rich semantic information ;
In this paper , the feature learning strategy based on efficient matching kernel ( EMK ) and Kernel Descriptors ( KDES ) model is proposed , and the feature learning strategies based on efficient matching kernel ( EMK ) and Kernel Descriptors ( KDES ) are proposed .
2 ) Based on KDES model , the image Grad - KDES , Shape - KDES , Color - KDES feature is extracted , and the feature of KDES is fused by using the model to generate new feature MK - KDES - J ( J = 1 , . . , 4 ) . Experiments show that : MKF , MK - KDES - 1 , etc . can accurately depict the key visual content in the image , establish an important foundation for generating coherent and fluent sentences .
2 ) The Word Sequence Blocks Building ( WSBB ) model is used to extract words and words to quantify words and measure the inter - word semantic relevance based on the COS standard . Finally , the WSBB model outputs a set of N - ary word sequences ( N = 1 , . . , 4 ) . 瀹為獙琛ㄦ槑錛歂-gram, WSBB絳夋ā鍨嬪潎鏈夊姪浜庣敓鎴愯繛璐,
本文編號:1982303
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1982303.html
最近更新
教材專著