天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機器學習的數據補全、標注和檢索若干問題研究

發(fā)布時間:2017-09-25 10:43

  本文關鍵詞:基于機器學習的數據補全、標注和檢索若干問題研究


  更多相關文章: 大數據 矩陣補全 主動學習 近鄰檢索


【摘要】:隨著互聯網的飛速發(fā)展,人們進入了大數據時代。在大數據時代如何對數據進行理解和檢索成為研究人員廣泛關注的問題,在推薦系統、人臉識別、圖像檢索等眾多實際問題中有著廣泛的應用。但是在大數據時代,關于數據本身,我們還面臨著很多挑戰(zhàn)。第一點,雖然可以很容易的收集到大量數據,但是由于各方面的原因,真實數據經?赡苁侨笔У摹⒉煌暾、或者被部分被干擾的,所以如何進行數據補全和恢復是一個難題。第二點,數據的分類、識別和理解經常需要依賴大量的標注數據,但是大數據時代,雖然數據總量多,但是大部分數據都是沒有標注信息的,而人工標注所有數據耗時耗力,因此如何選擇最重要、最有信息含量的那部分數據進行標注,從而降低標注成本,也是一個重要的科研問題。第三點,大數據時代,如何在對數據進行理解的基礎上,進行快速準確的數據檢索,精確的了解用戶意圖,并給用戶進行實時反饋,也是一大挑戰(zhàn)。針對這三方面的問題,本論文開展了以下工作:1.為了更好的進行數據信息恢復,我們提出了一個基于矩陣截斷式核范數的矩陣補全算法。本文在傳統的基于矩陣核范數的矩陣補全思路啟發(fā)下,進一步對矩陣核范數進行了精細化的修改,將傳統核范數定義中的最大的r的奇異值去掉,由此定義了新的矩陣截斷式核范數。通過這種修改,基于矩陣截斷式核范數的優(yōu)化問題能夠對矩陣的秩的優(yōu)化問題進行更好的近似,從而得到更好的低秩解。同時,我們提出了兩種高效的矩陣截斷式核范數的優(yōu)化算法,分別對應于硬限制和軟限制條件下目標函數的求解。而且,該工作給出了一種一般性的替代矩陣核范數的思路,可以廣泛應用到多種采用矩陣核范數的問題中。2.我們稱對數據進行自動采樣,選擇最有信息量的數據進行標注的過程為主動學習。本文在傳統主動學習算法基礎上,進一步利用核空間理論,將基于距離敏感重構的主動學習算法成功其推廣為其非線性形式。傳統基于距離敏感重構的主動學習算法只是簡單的通過線性重構去表示數據分布,但在很多的實際問題中,數據分布往往非常復雜。而核空間理論表明,可以通過選擇適當的核函數,將原始數據點映射到無窮維再生希爾伯特核空間(RKHS)中。而研究表明,在一個充分高維的空間里,數據的復雜非線性結構更可能被展開成簡單的幾何結構。因此,我們在核空間中對原始算法進行了重新推導,并提出了一種全新的優(yōu)化算法進行核空間目標函數的快速求解。實驗表明,通過引入核空間,我們對數據幾何信息的刻畫更加準確了,取得了更好的效果。3.為了加速數據檢索的速度,提高數據檢索的精度,本文提出了一個綜合數據結構和哈希算法的近似最近鄰檢索框架。傳統上,基于數據結構的檢索算法和基于哈希算法的檢索算法是最近鄰檢索中的兩個獨立的研究方向。本文提出的框架可以融合多種數據結構(如K-means樹,K近鄰圖等)和任意哈希算法,實現兩者的優(yōu)勢互補。一方面,我們將數據結構中使用的傳統歐式距離度量改進成漢明距離,大大加速數據結構中每一步搜索的計算速度;另一方面,我們對每個數據點的哈希編碼利用數據結構進行了重新組織,因此避免了對哈希編碼進行線性暴力搜索,將線性復雜度降低為對數復雜度。還有很重要的一點是,傳統哈希算法由于需要線性遍歷,往往只能采用較短的哈希編碼(比如32或者64),這時哈希編碼對真實距離的近似往往精度較低。而在本文的框架中,我們可以支持更長的哈希編碼(如512或者1024),因此能夠得到更高的檢索精度。
【關鍵詞】:大數據 矩陣補全 主動學習 近鄰檢索
【學位授予單位】:浙江大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要5-7
  • Abstract7-15
  • 1 緒論15-29
  • 1.1 研究背景15-17
  • 1.1.1 數據補全15
  • 1.1.2 數據標注15-16
  • 1.1.3 數據理解16
  • 1.1.4 數據檢索16-17
  • 1.2 國內外相關工作17-25
  • 1.2.1 數據補全17-19
  • 1.2.2 數據標注19-20
  • 1.2.3 數據理解20-24
  • 1.2.4 數據檢索24-25
  • 1.3 本文研究內容和主要貢獻25-26
  • 1.4 論文各章節(jié)的組織結構26-29
  • 2 基于截斷式核范數的矩陣補全29-51
  • 2.1 研究動機29
  • 2.2 截斷式核范數正則化29-32
  • 2.2.1 記號29-30
  • 2.2.2 目標函數推導30-32
  • 2.3 優(yōu)化算法32-37
  • 2.3.1 基于ADMM的優(yōu)化34-35
  • 2.3.2 基于APGL的優(yōu)化35-37
  • 2.4 實驗結果37-50
  • 2.4.1 合成數據集實驗37-39
  • 2.4.2 真實視覺數據集的實驗39-44
  • 2.4.3 事件矩陣恢復實驗44-50
  • 2.5 總結50-51
  • 3 基于核空間非線性距離敏感重構的主動學習51-71
  • 3.1 研究動機51-53
  • 3.1.1 記號51
  • 3.1.2 相關工作51-53
  • 3.2 線性距離敏感重構的基本思路53-57
  • 3.2.1 目標函數53-54
  • 3.2.2 線性距離敏感重構的求解54-57
  • 3.3 貪心序列式選擇算法57-59
  • 3.4 核空間非線性主動學習59-63
  • 3.5 復雜度分析63
  • 3.6 實驗63-69
  • 3.6.1 對比方法63-65
  • 3.6.2 簡單的合成數據集實驗65-66
  • 3.6.3 真實數據集66-67
  • 3.6.4 結果67-69
  • 3.6.5 參數選擇69
  • 3.7 總結69-71
  • 4 基于數據結構和哈希投影的近鄰檢索框架71-85
  • 4.1 研究動機71-72
  • 4.2 綜合近似近鄰檢索框架72-75
  • 4.2.1 算法72-74
  • 4.2.2 復雜度分析74-75
  • 4.3 實驗75-83
  • 4.3.1 比較的算法75-79
  • 4.3.2 實驗數據集79-80
  • 4.3.3 算法評估80
  • 4.3.4 參數選擇80-81
  • 4.3.5 結果81-83
  • 4.4 總結83-85
  • 5 總結與展望85-89
  • 5.1 本文工作總結85-86
  • 5.2 未來工作展望86-89
  • 參考文獻89-97
  • 攻讀博士學位期間主要的研究成果97-99
  • 致謝99

【相似文獻】

中國期刊全文數據庫 前10條

1 郭瑩;;數據空間關鍵問題探究[J];軟件導刊;2012年07期

2 厲劍;張紹雄;劉俊杰;李成柱;;大數據引發(fā)信息時代新變革[J];大眾科技;2013年12期

3 李斌;;大數據及其發(fā)展趨勢研究[J];廣西教育;2013年35期

4 張曉軍;孟祥武;;數字化周期[J];計算機科學;2002年05期

5 崔晨;吳揚揚;;基于活動的數據空間數據關系發(fā)現[J];微型機與應用;2011年11期

6 賈云得;;微型數字存貯遙測裝置數據預存貯方法[J];遙測遙控;1989年06期

7 靳小龍;王元卓;程學旗;;大數據的研究體系與現狀[J];信息通信技術;2013年06期

8 朝樂門;;數據空間及其信息資源管理視角研究[J];情報理論與實踐;2013年11期

9 黃一凡;;合并分區(qū) 數據無損有妙招[J];電腦愛好者;2011年23期

10 葛敬軍;胡長軍;劉歆;李揚;劉震宇;;面向領域科學數據的虛擬數據空間共享模型[J];小型微型計算機系統;2014年03期

中國重要會議論文全文數據庫 前5條

1 李鴻奎;陳洪艷;;大連市房地產基礎地理信息系統的設計和建設[A];中國地理信息系統協會第九屆年會論文集[C];2005年

2 董彥磊;申德榮;寇月;聶鐵錚;;數據空間中數據組織模型以及關聯關系發(fā)現模型的研究[A];第26屆中國數據庫學術會議論文集(B輯)[C];2009年

3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年

4 季承;;Oracle利用HWM高水標記收縮數據空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年

5 季承;;Oracle利用HWM高水標記收縮數據空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年

中國重要報紙全文數據庫 前6條

1 牛澤亞;用戶如何在數據空間里“被遺忘”?[N];人民郵電;2014年

2 風格;指引大數據未來發(fā)展方向的九大真理[N];中華讀書報;2013年

3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅動,奮力奔向大數據時代[N];貴陽日報;2014年

4 中國人民大學信息學院 李玉坤;云計算與數據空間[N];中國計算機報;2008年

5 整理 本報記者 蘇丹丹;把握大數據機遇 推動文化產業(yè)跨越發(fā)展[N];中國文化報;2013年

6 安徽國稅局 趙為民;稅務綜合數據平臺的設想[N];計算機世界;2007年

中國博士學位論文全文數據庫 前10條

1 李曉娜;面向SaaS應用的多租戶數據放置機制研究[D];山東大學;2015年

2 張德兵;基于機器學習的數據補全、標注和檢索若干問題研究[D];浙江大學;2015年

3 姜朔;數據空間中數據集成若干關鍵問題研究[D];東華大學;2014年

4 陳鵬;面向情景感知計算的時空數據管理、查詢、分析與相關算法研究[D];華東師范大學;2013年

5 楊丹;數據空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年

6 王曉蕊;華北克拉通地球化學科學數據的管理及應用研究[D];中國地質大學;2008年

7 張曉東;數字河口平臺建設關鍵技術研究[D];中國海洋大學;2009年

8 汪陳應;XML數據編碼與存儲管理關鍵技術研究[D];南開大學;2010年

9 李韌;基于Hadoop的大規(guī)模語義Web本體數據查詢與推理關鍵技術研究[D];重慶大學;2013年

10 劉江濤;面向多領域用戶模型的自適應網絡制圖服務機制研究[D];武漢大學;2012年

中國碩士學位論文全文數據庫 前10條

1 權西瑞;云環(huán)境下數據版權保護方法的研究[D];西安建筑科技大學;2015年

2 向兵;中藥顆粒調劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年

3 崔晨;基于活動的數據空間的數據關系發(fā)現和數據重要性評價[D];華僑大學;2011年

4 童蓉;基于GIS的社區(qū)公共衛(wèi)生信息平臺應用研究[D];上海交通大學;2010年

5 劉莉;數據空間數據的相關性研究[D];華僑大學;2013年

6 趙寧;數據空間內面向語義的資源組織與管理模型研究[D];東北大學;2009年

7 王洋;數據空間中數據資源之間關聯關系發(fā)現與語義查詢研究[D];東北大學;2011年

8 常飛;基于實時數據的動態(tài)異常檢測方法研究[D];天津理工大學;2013年

9 朱軍;基于EnCase的電子數據取證系統設計與實現[D];天津大學;2011年

10 于維賀;個人數據空間中關聯關系可視化技術的研究與實現[D];東北大學;2010年



本文編號:916893

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/916893.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶f0e96***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品不卡一区二区三区四区| 日韩一区二区三区观看| 亚洲一区二区三区三区| 91人妻丝袜一区二区三区| 色综合久久中文综合网| 日韩一区二区三区观看| 99精品国产自在现线观看| 丰满人妻少妇精品一区二区三区| 国产欧美性成人精品午夜| 国产日韩欧美一区二区| 日韩精品一区二区三区射精| 在线免费不卡亚洲国产| 亚洲精品福利入口在线| 国产成人亚洲欧美二区综| 大香蕉伊人精品在线观看| 最新69国产精品视频| 国产中文字幕一区二区| 亚洲国产另类久久精品| 午夜精品成年人免费视频| 欧美午夜性刺激在线观看| 成在线人免费视频一区二区| 国产精品一区二区不卡中文| 国产精品蜜桃久久一区二区| 熟女高潮一区二区三区| 国产精品午夜福利免费阅读| 熟女中文字幕一区二区三区| 又黄又爽禁片视频在线观看| 午夜精品久久久免费视频| 欧美二区视频在线观看| 婷婷亚洲综合五月天麻豆| 婷婷九月在线中文字幕| 亚洲成人黄色一级大片| 亚洲国产成人精品一区刚刚| 99国产精品国产精品九九| 国产av一区二区三区麻豆| 久久精品福利在线观看| 婷婷亚洲综合五月天麻豆| 一区二区免费视频中文乱码国产| 亚洲一级二级三级精品| 国产一区日韩二区欧美| 免费黄片视频美女一区|