基于機器學習的數據補全、標注和檢索若干問題研究
本文關鍵詞:基于機器學習的數據補全、標注和檢索若干問題研究
【摘要】:隨著互聯網的飛速發(fā)展,人們進入了大數據時代。在大數據時代如何對數據進行理解和檢索成為研究人員廣泛關注的問題,在推薦系統、人臉識別、圖像檢索等眾多實際問題中有著廣泛的應用。但是在大數據時代,關于數據本身,我們還面臨著很多挑戰(zhàn)。第一點,雖然可以很容易的收集到大量數據,但是由于各方面的原因,真實數據經?赡苁侨笔У摹⒉煌暾、或者被部分被干擾的,所以如何進行數據補全和恢復是一個難題。第二點,數據的分類、識別和理解經常需要依賴大量的標注數據,但是大數據時代,雖然數據總量多,但是大部分數據都是沒有標注信息的,而人工標注所有數據耗時耗力,因此如何選擇最重要、最有信息含量的那部分數據進行標注,從而降低標注成本,也是一個重要的科研問題。第三點,大數據時代,如何在對數據進行理解的基礎上,進行快速準確的數據檢索,精確的了解用戶意圖,并給用戶進行實時反饋,也是一大挑戰(zhàn)。針對這三方面的問題,本論文開展了以下工作:1.為了更好的進行數據信息恢復,我們提出了一個基于矩陣截斷式核范數的矩陣補全算法。本文在傳統的基于矩陣核范數的矩陣補全思路啟發(fā)下,進一步對矩陣核范數進行了精細化的修改,將傳統核范數定義中的最大的r的奇異值去掉,由此定義了新的矩陣截斷式核范數。通過這種修改,基于矩陣截斷式核范數的優(yōu)化問題能夠對矩陣的秩的優(yōu)化問題進行更好的近似,從而得到更好的低秩解。同時,我們提出了兩種高效的矩陣截斷式核范數的優(yōu)化算法,分別對應于硬限制和軟限制條件下目標函數的求解。而且,該工作給出了一種一般性的替代矩陣核范數的思路,可以廣泛應用到多種采用矩陣核范數的問題中。2.我們稱對數據進行自動采樣,選擇最有信息量的數據進行標注的過程為主動學習。本文在傳統主動學習算法基礎上,進一步利用核空間理論,將基于距離敏感重構的主動學習算法成功其推廣為其非線性形式。傳統基于距離敏感重構的主動學習算法只是簡單的通過線性重構去表示數據分布,但在很多的實際問題中,數據分布往往非常復雜。而核空間理論表明,可以通過選擇適當的核函數,將原始數據點映射到無窮維再生希爾伯特核空間(RKHS)中。而研究表明,在一個充分高維的空間里,數據的復雜非線性結構更可能被展開成簡單的幾何結構。因此,我們在核空間中對原始算法進行了重新推導,并提出了一種全新的優(yōu)化算法進行核空間目標函數的快速求解。實驗表明,通過引入核空間,我們對數據幾何信息的刻畫更加準確了,取得了更好的效果。3.為了加速數據檢索的速度,提高數據檢索的精度,本文提出了一個綜合數據結構和哈希算法的近似最近鄰檢索框架。傳統上,基于數據結構的檢索算法和基于哈希算法的檢索算法是最近鄰檢索中的兩個獨立的研究方向。本文提出的框架可以融合多種數據結構(如K-means樹,K近鄰圖等)和任意哈希算法,實現兩者的優(yōu)勢互補。一方面,我們將數據結構中使用的傳統歐式距離度量改進成漢明距離,大大加速數據結構中每一步搜索的計算速度;另一方面,我們對每個數據點的哈希編碼利用數據結構進行了重新組織,因此避免了對哈希編碼進行線性暴力搜索,將線性復雜度降低為對數復雜度。還有很重要的一點是,傳統哈希算法由于需要線性遍歷,往往只能采用較短的哈希編碼(比如32或者64),這時哈希編碼對真實距離的近似往往精度較低。而在本文的框架中,我們可以支持更長的哈希編碼(如512或者1024),因此能夠得到更高的檢索精度。
【關鍵詞】:大數據 矩陣補全 主動學習 近鄰檢索
【學位授予單位】:浙江大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要5-7
- Abstract7-15
- 1 緒論15-29
- 1.1 研究背景15-17
- 1.1.1 數據補全15
- 1.1.2 數據標注15-16
- 1.1.3 數據理解16
- 1.1.4 數據檢索16-17
- 1.2 國內外相關工作17-25
- 1.2.1 數據補全17-19
- 1.2.2 數據標注19-20
- 1.2.3 數據理解20-24
- 1.2.4 數據檢索24-25
- 1.3 本文研究內容和主要貢獻25-26
- 1.4 論文各章節(jié)的組織結構26-29
- 2 基于截斷式核范數的矩陣補全29-51
- 2.1 研究動機29
- 2.2 截斷式核范數正則化29-32
- 2.2.1 記號29-30
- 2.2.2 目標函數推導30-32
- 2.3 優(yōu)化算法32-37
- 2.3.1 基于ADMM的優(yōu)化34-35
- 2.3.2 基于APGL的優(yōu)化35-37
- 2.4 實驗結果37-50
- 2.4.1 合成數據集實驗37-39
- 2.4.2 真實視覺數據集的實驗39-44
- 2.4.3 事件矩陣恢復實驗44-50
- 2.5 總結50-51
- 3 基于核空間非線性距離敏感重構的主動學習51-71
- 3.1 研究動機51-53
- 3.1.1 記號51
- 3.1.2 相關工作51-53
- 3.2 線性距離敏感重構的基本思路53-57
- 3.2.1 目標函數53-54
- 3.2.2 線性距離敏感重構的求解54-57
- 3.3 貪心序列式選擇算法57-59
- 3.4 核空間非線性主動學習59-63
- 3.5 復雜度分析63
- 3.6 實驗63-69
- 3.6.1 對比方法63-65
- 3.6.2 簡單的合成數據集實驗65-66
- 3.6.3 真實數據集66-67
- 3.6.4 結果67-69
- 3.6.5 參數選擇69
- 3.7 總結69-71
- 4 基于數據結構和哈希投影的近鄰檢索框架71-85
- 4.1 研究動機71-72
- 4.2 綜合近似近鄰檢索框架72-75
- 4.2.1 算法72-74
- 4.2.2 復雜度分析74-75
- 4.3 實驗75-83
- 4.3.1 比較的算法75-79
- 4.3.2 實驗數據集79-80
- 4.3.3 算法評估80
- 4.3.4 參數選擇80-81
- 4.3.5 結果81-83
- 4.4 總結83-85
- 5 總結與展望85-89
- 5.1 本文工作總結85-86
- 5.2 未來工作展望86-89
- 參考文獻89-97
- 攻讀博士學位期間主要的研究成果97-99
- 致謝99
【相似文獻】
中國期刊全文數據庫 前10條
1 郭瑩;;數據空間關鍵問題探究[J];軟件導刊;2012年07期
2 厲劍;張紹雄;劉俊杰;李成柱;;大數據引發(fā)信息時代新變革[J];大眾科技;2013年12期
3 李斌;;大數據及其發(fā)展趨勢研究[J];廣西教育;2013年35期
4 張曉軍;孟祥武;;數字化周期[J];計算機科學;2002年05期
5 崔晨;吳揚揚;;基于活動的數據空間數據關系發(fā)現[J];微型機與應用;2011年11期
6 賈云得;;微型數字存貯遙測裝置數據預存貯方法[J];遙測遙控;1989年06期
7 靳小龍;王元卓;程學旗;;大數據的研究體系與現狀[J];信息通信技術;2013年06期
8 朝樂門;;數據空間及其信息資源管理視角研究[J];情報理論與實踐;2013年11期
9 黃一凡;;合并分區(qū) 數據無損有妙招[J];電腦愛好者;2011年23期
10 葛敬軍;胡長軍;劉歆;李揚;劉震宇;;面向領域科學數據的虛擬數據空間共享模型[J];小型微型計算機系統;2014年03期
中國重要會議論文全文數據庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產基礎地理信息系統的設計和建設[A];中國地理信息系統協會第九屆年會論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數據空間中數據組織模型以及關聯關系發(fā)現模型的研究[A];第26屆中國數據庫學術會議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標記收縮數據空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
5 季承;;Oracle利用HWM高水標記收縮數據空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
中國重要報紙全文數據庫 前6條
1 牛澤亞;用戶如何在數據空間里“被遺忘”?[N];人民郵電;2014年
2 風格;指引大數據未來發(fā)展方向的九大真理[N];中華讀書報;2013年
3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅動,奮力奔向大數據時代[N];貴陽日報;2014年
4 中國人民大學信息學院 李玉坤;云計算與數據空間[N];中國計算機報;2008年
5 整理 本報記者 蘇丹丹;把握大數據機遇 推動文化產業(yè)跨越發(fā)展[N];中國文化報;2013年
6 安徽國稅局 趙為民;稅務綜合數據平臺的設想[N];計算機世界;2007年
中國博士學位論文全文數據庫 前10條
1 李曉娜;面向SaaS應用的多租戶數據放置機制研究[D];山東大學;2015年
2 張德兵;基于機器學習的數據補全、標注和檢索若干問題研究[D];浙江大學;2015年
3 姜朔;數據空間中數據集成若干關鍵問題研究[D];東華大學;2014年
4 陳鵬;面向情景感知計算的時空數據管理、查詢、分析與相關算法研究[D];華東師范大學;2013年
5 楊丹;數據空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年
6 王曉蕊;華北克拉通地球化學科學數據的管理及應用研究[D];中國地質大學;2008年
7 張曉東;數字河口平臺建設關鍵技術研究[D];中國海洋大學;2009年
8 汪陳應;XML數據編碼與存儲管理關鍵技術研究[D];南開大學;2010年
9 李韌;基于Hadoop的大規(guī)模語義Web本體數據查詢與推理關鍵技術研究[D];重慶大學;2013年
10 劉江濤;面向多領域用戶模型的自適應網絡制圖服務機制研究[D];武漢大學;2012年
中國碩士學位論文全文數據庫 前10條
1 權西瑞;云環(huán)境下數據版權保護方法的研究[D];西安建筑科技大學;2015年
2 向兵;中藥顆粒調劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年
3 崔晨;基于活動的數據空間的數據關系發(fā)現和數據重要性評價[D];華僑大學;2011年
4 童蓉;基于GIS的社區(qū)公共衛(wèi)生信息平臺應用研究[D];上海交通大學;2010年
5 劉莉;數據空間數據的相關性研究[D];華僑大學;2013年
6 趙寧;數據空間內面向語義的資源組織與管理模型研究[D];東北大學;2009年
7 王洋;數據空間中數據資源之間關聯關系發(fā)現與語義查詢研究[D];東北大學;2011年
8 常飛;基于實時數據的動態(tài)異常檢測方法研究[D];天津理工大學;2013年
9 朱軍;基于EnCase的電子數據取證系統設計與實現[D];天津大學;2011年
10 于維賀;個人數據空間中關聯關系可視化技術的研究與實現[D];東北大學;2010年
,本文編號:916893
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/916893.html