基于視覺(jué)語(yǔ)言模型的蒙古文古籍圖像檢索技術(shù)研究
本文關(guān)鍵詞:基于視覺(jué)語(yǔ)言模型的蒙古文古籍圖像檢索技術(shù)研究 出處:《內(nèi)蒙古大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 蒙古文古籍 文本圖像檢索 視覺(jué)詞袋模型 視覺(jué)語(yǔ)言模型 空間金字塔
【摘要】:隨著數(shù)字化技術(shù)的發(fā)展,在內(nèi)蒙古自治區(qū),越來(lái)越多的蒙古文古籍被轉(zhuǎn)成數(shù)字圖像,以便長(zhǎng)久保存。但是以圖像格式保存的古籍文檔沒(méi)有索引信息,無(wú)法實(shí)現(xiàn)全文檢索,因此制約了古籍文獻(xiàn)資料的傳播與利用。本文關(guān)注蒙古文古籍圖像檢索技術(shù),這為挖掘與利用蒙古文古籍提供便利。在圖像檢索領(lǐng)域,視覺(jué)詞袋模型是近年來(lái)圖像檢索中最常使用的模型。然而視覺(jué)詞袋模型有兩個(gè)缺陷:一是視覺(jué)單詞之間缺乏語(yǔ)義信息,這導(dǎo)致人對(duì)圖像的相似性判別與計(jì)算機(jī)之間存在差異,也就是著名的"語(yǔ)義鴻溝"問(wèn)題;二是視覺(jué)單詞之間相互獨(dú)立,忽略了相鄰視覺(jué)單詞之間的空間信息。本文針對(duì)這兩個(gè)缺陷,提出了解決方法,具體如下:(1)針對(duì)視覺(jué)詞袋模型中視覺(jué)單詞之間缺少語(yǔ)義信息的問(wèn)題,提出了視覺(jué)語(yǔ)言模型。首先,將掃描得到的蒙古文《甘珠爾經(jīng)》圖像切割成獨(dú)立的單詞圖像。其次,從每個(gè)單詞圖像中提取局部描述子(即:視覺(jué)單詞),并將單詞圖像表示成視覺(jué)單詞的概率分布。其中,平滑策略被用于處理零概率問(wèn)題。再次,根據(jù)給定的查詢單詞圖像,采用查詢似然模型計(jì)算查詢單詞圖像與待檢索單詞圖像間的相似度。最終,按照相似度降序可以生成一個(gè)單詞圖像列表,作為檢索結(jié)果。(2)我們將視覺(jué)單詞的空間信息和語(yǔ)義信息相結(jié)合,提出了空間視覺(jué)語(yǔ)言模型用于表示單詞圖像。首先,將每個(gè)單詞圖像沿著行、列方向劃分為多個(gè)等大小的子區(qū)域。根據(jù)蒙古文的書(shū)寫方式,我們確定了一種適合于蒙古文單詞圖像的子區(qū)域劃分方式。其次,在每個(gè)子區(qū)域中分別構(gòu)建視覺(jué)語(yǔ)言模型。然后,在單詞圖像匹配過(guò)程中,只有對(duì)應(yīng)子區(qū)域的視覺(jué)語(yǔ)言模型進(jìn)行相似度計(jì)算。最終,將這些子區(qū)域間相似度求和得到兩個(gè)單詞圖像的相似度。
[Abstract]:With the development of digital technology in the Inner Mongolia Autonomous Region, Mongolian language more and more were converted into a digital image, in order to store. But in order to save the historical documents without index information, unable to realize the full-text retrieval, thus restricting the spread and utilization of ancient literature. This article focuses on ancient Mongolian image retrieval technology, the mining and the ancient Mongolian convenience. In the field of image retrieval, visual bag of words model in recent years is the most commonly used in image retrieval model. However, bag of visual word has two defects: one is the lack of semantic information of visual words, which leads to the differences between people to distinguish the similarity of images with the computer, also known as the "semantic gap"; two is the visual words are mutually independent, ignoring the spatial information between adjacent visual words. Based on the two. In the solution, the details are as follows: (1) aiming at the lack of semantic information between visual words bag of words model in question, proposed the visual language model. First of all, will scan the Mongolian kanjur cut < > images into words independent image. Secondly, the extraction of local descriptors from each word in the image (namely: visual words), and word image expressed as the probability distribution of visual words. The smoothing strategy is used to deal with zero probability problem. Thirdly, according to the query word image is given, the query likelihood model to calculate the query word image and word similarity between images to be retrieved. Finally, according to similarity can generate a descending order a word image list, as search results. (2) we will be visual words space and semantic information by combining spatial visual language model for the word image is proposed. First, the Each word image along the line direction, the column area is divided into a plurality of equal size. According to the Mongolian writing style, we determine a suitable for the Mongolian word image sub region division method. Secondly, construct the visual language model in each sub region. Then, in the words of the image matching process, only the corresponding visual language model sub region similarity calculation. Finally, the sub region similarity between the sum of two words of image similarity.
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.41
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 吳建;馬躍;;一種改進(jìn)的SIFT算法[J];計(jì)算機(jī)科學(xué);2013年07期
2 呂明磊;劉冬梅;曾智勇;;基于改進(jìn)K-means算法的圖像檢索方法[J];計(jì)算機(jī)應(yīng)用;2013年S1期
3 趙春暉;王瑩;Masahide Kaneko;;一種改進(jìn)的k-means聚類視覺(jué)詞典構(gòu)造方法[J];儀器儀表學(xué)報(bào);2012年10期
4 張琳波;王春恒;肖柏華;邵允學(xué);;基于Bag-of-phrases的圖像表示方法[J];自動(dòng)化學(xué)報(bào);2012年01期
5 江悅;王潤(rùn)生;王程;;采用上下文金字塔特征的場(chǎng)景分類[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2010年08期
6 鄭永斌;黃新生;豐松江;;SIFT和旋轉(zhuǎn)不變LBP相結(jié)合的圖像匹配算法[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2010年02期
7 侯宏旭;劉群;那順烏日?qǐng)D;牧仁高娃;李錦濤;;基于統(tǒng)計(jì)語(yǔ)言模型的蒙古文詞切分[J];模式識(shí)別與人工智能;2009年01期
8 向友君;謝勝利;;圖像檢索技術(shù)綜述[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年03期
相關(guān)博士學(xué)位論文 前1條
1 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年
相關(guān)碩士學(xué)位論文 前2條
1 徐衍魯;基于改進(jìn)的K-means和層次聚類方法的詞袋模型研究[D];上海師范大學(xué);2015年
2 孫瀟洋;基于Hessian矩陣范數(shù)的正則化方法在圖像恢復(fù)中的應(yīng)用研究[D];西安電子科技大學(xué);2014年
,本文編號(hào):1380155
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1380155.html