基于隱變量模型的監(jiān)督式哈希算法
本文關(guān)鍵詞:基于隱變量模型的監(jiān)督式哈希算法,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)時(shí)代的來臨,人們每天都在互聯(lián)網(wǎng)上產(chǎn)生著海量的信息。如何對信息進(jìn)行檢索,從而在海量的信息中快速找到對自己有用的信息,就變得十分重要;谶@樣的需求,搜索引擎在過去的十年間取得了巨大的成功,同時(shí)數(shù)據(jù)分析與挖掘技術(shù)也得到了廣泛的關(guān)注。相似最近鄰搜索是數(shù)據(jù)分析與挖掘領(lǐng)域的一個(gè)基本問題。為了能夠在大數(shù)據(jù)集上高效地進(jìn)行相似最近鄰搜索,并且避免數(shù)據(jù)維數(shù)過高時(shí)所產(chǎn)生的一些問題,人們利用哈希算法將高維的特征向量轉(zhuǎn)換為低維的二進(jìn)制編碼。隨著近幾年機(jī)器學(xué)習(xí)的廣泛發(fā)展,人們開始嘗試提出基于機(jī)器學(xué)習(xí)的哈希算法。 在本文中,我們對現(xiàn)有的哈希算法做了系統(tǒng)的回顧和分析。在學(xué)習(xí)的過程中,我們發(fā)現(xiàn)了其中存在的一些問題和可以改進(jìn)的地方。基于此,,我們提出了一種全新的基于隱變量模型的監(jiān)督式哈希算法。實(shí)驗(yàn)結(jié)果表明,我們的算法在準(zhǔn)確率和時(shí)間花費(fèi)上與現(xiàn)有的算法相比都有很大的改善。 我們進(jìn)一步利用基于哈希算法的k最近鄰回歸實(shí)現(xiàn)了一個(gè)針對FML網(wǎng)站的自動(dòng)評審系統(tǒng)。該系統(tǒng)從網(wǎng)頁中提取每個(gè)帖子的原始信息,利用自然語言處理工具對這些原始信息進(jìn)行加工,并從中抽取出可以表示帖子內(nèi)容的特征向量;诓杉降挠(xùn)練數(shù)據(jù),該系統(tǒng)能夠自動(dòng)地對網(wǎng)站上帖子內(nèi)容的評分做預(yù)測,從而達(dá)到自動(dòng)評審的目的。 此外,在實(shí)驗(yàn)的過程中,我們設(shè)計(jì)搭建了一個(gè)通用的平臺,可以十分方便地在其上添加各種哈希算法。該平臺支持使用多種標(biāo)準(zhǔn)評價(jià)方法對算法的性能做對比。我們在這個(gè)實(shí)驗(yàn)平臺上移植了目前已有的大部分算法,并實(shí)現(xiàn)了自己提出的全新算法,并通過大量的實(shí)驗(yàn)對它們的性能做了系統(tǒng)的比較。
【關(guān)鍵詞】:哈希 隱變量 相似最近鄰搜索 k最近鄰回歸 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP301.6
【目錄】:
- 摘要3-4
- ABSTRACT4-6
- 目錄6-10
- 插圖索引10-11
- 表格索引11-12
- 第一章 引言12-18
- 1.1 相似最近鄰搜索與哈希算法12-13
- 1.2 現(xiàn)有哈希算法回顧13-16
- 1.3 本文的貢獻(xiàn)16-18
- 第二章 基于隱變量模型的監(jiān)督式哈希算法18-35
- 2.1 基本定義18-19
- 2.2 模型建立19-20
- 2.3 學(xué)習(xí)過程20-22
- 2.3.1 二維化21-22
- 2.3.2 訓(xùn)練數(shù)據(jù)集外數(shù)據(jù)點(diǎn)的二進(jìn)制編碼22
- 2.4 分析與改進(jìn)22-25
- 2.4.1 收斂性22-23
- 2.4.2 復(fù)雜度23
- 2.4.3 隨機(jī)學(xué)習(xí)23-25
- 2.4.4 超參數(shù)標(biāo)準(zhǔn)化25
- 2.5 實(shí)驗(yàn)結(jié)果25-35
- 2.5.1 數(shù)據(jù)集25-26
- 2.5.2 對比算法26
- 2.5.3 實(shí)驗(yàn)設(shè)置26
- 2.5.4 隨機(jī)學(xué)習(xí)的影響26-27
- 2.5.5 海明排序27-28
- 2.5.6 k 最近鄰分類28-29
- 2.5.7 時(shí)間花費(fèi)29
- 2.5.8 使用全部標(biāo)記信息的性能對比29-30
- 2.5.9 實(shí)例展示30-35
- 第三章 針對 FML 網(wǎng)站的自動(dòng)評審系統(tǒng)35-46
- 3.1 FML 網(wǎng)站介紹35-36
- 3.2 系統(tǒng)架構(gòu)36-37
- 3.3 網(wǎng)頁爬蟲37-38
- 3.4 字典生成器38-39
- 3.4.1 分詞器38
- 3.4.2 詞干器38
- 3.4.3 詞性標(biāo)注器38-39
- 3.5 特征提取器39-41
- 3.5.1 內(nèi)容特征39-40
- 3.5.2 時(shí)域特征40
- 3.5.3 地域特征40
- 3.5.4 其它特征40-41
- 3.6 哈希編碼器與預(yù)測器41-42
- 3.7 實(shí)驗(yàn)結(jié)果42-46
- 3.7.1 預(yù)測準(zhǔn)確度42-43
- 3.7.2 查詢時(shí)間43-44
- 3.7.3 存儲代價(jià)44-46
- 第四章 通用實(shí)驗(yàn)平臺46-62
- 4.1 總體結(jié)構(gòu)47
- 4.2 數(shù)據(jù)集列表47-48
- 4.3 哈希算法列表48-49
- 4.4 配置文件49-52
- 4.4.1 數(shù)據(jù)集配置文件50
- 4.4.2 哈希算法配置文件50-51
- 4.4.3 實(shí)驗(yàn)配置文件51-52
- 4.4.4 平臺配置文件52
- 4.5 數(shù)據(jù)預(yù)處理52-55
- 4.5.1 數(shù)據(jù)采樣53
- 4.5.2 訓(xùn)練/測試/驗(yàn)證數(shù)據(jù)集劃分53
- 4.5.3 特征標(biāo)準(zhǔn)化53-54
- 4.5.4 近鄰矩陣54-55
- 4.6 性能評測55-56
- 4.6.1 海明排序55-56
- 4.6.2 哈希查找56
- 4.7 結(jié)果管理56-59
- 4.7.1 緩存57-58
- 4.7.2 圖片58
- 4.7.3 日志58-59
- 4.7.4 性能分析表59
- 4.8 其它實(shí)用功能59-61
- 4.8.1 重復(fù)實(shí)驗(yàn)59
- 4.8.2 并行處理59-60
- 4.8.3 內(nèi)存控制60
- 4.8.4 郵件提醒60-61
- 4.9 平臺擴(kuò)展61-62
- 全文總結(jié)62-64
- 參考文獻(xiàn)64-70
- 致謝70-71
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄71-72
- 攻讀學(xué)位期間參與的項(xiàng)目72-74
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 韓強(qiáng);;基于廣義Hough變換的手寫文檔整詞定位[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年05期
2 程剛;鄭小華;陽鋒;徐祖艦;;三維全景視覺技術(shù)在農(nóng)業(yè)機(jī)器人中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2010年34期
3 何海燕;施培蓓;;基于改進(jìn)AdaBoost算法的行人檢測方法[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年03期
4 吳慧蘭;劉國棟;劉炳國;胡濤;浦昭邦;;ICF實(shí)驗(yàn)靶定位技術(shù)研究[J];半導(dǎo)體光電;2008年05期
5 陳京;袁保宗;劉渭濱;;多視點(diǎn)標(biāo)定圖像的交替迭代度量重建方法[J];北京交通大學(xué)學(xué)報(bào);2012年02期
6 周峰;劉輝;李超峰;;SIFT算法在圖像配準(zhǔn)中的應(yīng)用[J];辦公自動(dòng)化;2009年22期
7 劉彬;葉麗娜;;一種基于SIFT特征的序列圖像拼接算法[J];兵工自動(dòng)化;2009年06期
8 劉煥敏;王華;段慧芬;;一種改進(jìn)的SIFT雙向匹配算法[J];兵工自動(dòng)化;2009年06期
9 彭勃;周文暉;劉濟(jì)林;;基于Harris角點(diǎn)檢測的立體視覺里程計(jì)[J];兵工學(xué)報(bào);2007年12期
10 陳冰;趙亦工;李欣;;基于高斯尺度空間的末制導(dǎo)目標(biāo)跟蹤方法[J];兵工學(xué)報(bào);2009年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉善磊;張亮;;基于相位相關(guān)和SURF算法的關(guān)鍵幀實(shí)時(shí)匹配研究[A];江蘇省測繪學(xué)會2011年學(xué)術(shù)年會論文集[C];2011年
2 隋樹林;孫立宏;姚文龍;袁健;;融合改進(jìn)UKF/SIFT信息的自主光學(xué)導(dǎo)航方法[A];第二十六屆中國控制會議論文集[C];2007年
3 汪力;葉樺;夏良正;;利用特征點(diǎn)定位嘴巴[A];第二十六屆中國控制會議論文集[C];2007年
4 ;Loop-closing By Using SIFT Features for Mobile Robots[A];第二十六屆中國控制會議論文集[C];2007年
5 周凱;范瑞霞;李位星;;一種基于SIFT的MeanShift-粒子濾波融合跟蹤算法[A];第二十九屆中國控制會議論文集[C];2010年
6 ;Rapid Target Recognition and Tracking under Large Scale Variation Using Semi-Naive Bayesian[A];第二十九屆中國控制會議論文集[C];2010年
7 ;A High-level Image Sequence Fusion Algorithm for Human Detection[A];第二十九屆中國控制會議論文集[C];2010年
8 鄒麗暉;陳杰;張娟;竇麗華;;一種基于時(shí)空域流形的視頻序列圖像拼接算法[A];第二十九屆中國控制會議論文集[C];2010年
9 ;Machine Vision Based Flotation Froth Mobility Analysis[A];第二十九屆中國控制會議論文集[C];2010年
10 孫明竹;趙新;程小燕;孫程;盧桂章;;面向復(fù)雜作業(yè)的微操作機(jī)器人關(guān)鍵技術(shù)研究[A];第二十九屆中國控制會議論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王玉全;基于全景視覺的移動(dòng)機(jī)器人同時(shí)定位與地圖創(chuàng)建方法研究[D];哈爾濱工程大學(xué);2010年
2 梁洪;基于內(nèi)容的醫(yī)學(xué)圖像檢索及語義建模關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 任楨;圖像分類任務(wù)的關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 孔凡芝;引線鍵合視覺檢測關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年
5 王作為;具有認(rèn)知能力的智能機(jī)器人行為學(xué)習(xí)方法研究[D];哈爾濱工程大學(xué);2010年
6 肖潔;視覺注意模型及其在目標(biāo)感知中的應(yīng)用研究[D];華中科技大學(xué);2010年
7 朱清波;序列圖像三維重建方法研究[D];華中科技大學(xué);2010年
8 田文;多視圖圖像的快速三維場景重建[D];華中科技大學(xué);2010年
9 涂虬;智能視覺監(jiān)視中目標(biāo)檢測與跟蹤算法研究[D];華中科技大學(xué);2010年
10 章鵬;多尺度特征檢測:方法和應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 宋抗;壓縮機(jī)活塞圓度誤差數(shù)字檢測系統(tǒng)研究[D];河南理工大學(xué);2010年
2 陳忠翔;基于立體視覺的三維重建方法研究[D];南昌航空大學(xué);2010年
3 雒燕飛;地質(zhì)災(zāi)害應(yīng)急地理信息數(shù)據(jù)庫設(shè)計(jì)及其應(yīng)用[D];山東科技大學(xué);2010年
4 唐紅梅;基于輻射與空間信息的遙感圖像檢索[D];山東科技大學(xué);2010年
5 倪希亮;基于尺度不變特征的多源遙感影像配準(zhǔn)[D];山東科技大學(xué);2010年
6 賈偉潔;SAR影像與光學(xué)影像配準(zhǔn)研究[D];山東科技大學(xué);2010年
7 任天宇;自穩(wěn)定航拍系統(tǒng)算法與設(shè)計(jì)[D];長春理工大學(xué);2010年
8 李躍;三維運(yùn)動(dòng)估計(jì)在織物動(dòng)態(tài)仿真中的應(yīng)用[D];浙江理工大學(xué);2010年
9 婁錚錚;sIB算法在圖像無監(jiān)督分類中的應(yīng)用研究[D];鄭州大學(xué);2010年
10 王博;全景視覺智能移動(dòng)機(jī)器人固有環(huán)境定位[D];哈爾濱工程大學(xué);2010年
本文關(guān)鍵詞:基于隱變量模型的監(jiān)督式哈希算法,由筆耕文化傳播整理發(fā)布。
本文編號:310396
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/310396.html