基于異構(gòu)訓練數(shù)據(jù)的排序?qū)W習算法研究
本文關(guān)鍵詞:基于異構(gòu)訓練數(shù)據(jù)的排序?qū)W習算法研究
更多相關(guān)文章: 排序?qū)W習算法 信息檢索 RankSVM Pairwise
【摘要】:在人工構(gòu)造排序數(shù)據(jù)代價高昂而人工對數(shù)據(jù)進行分類的代價則相對低廉的背景下,本文將已排序數(shù)據(jù)和已分類數(shù)據(jù)組成異構(gòu)訓練集來訓練排序?qū)W習算法。本文提出了基于異構(gòu)訓練數(shù)據(jù)的排序?qū)W習算法框架,利用分類數(shù)據(jù)和排序數(shù)據(jù)同時訓練文本排序?qū)W習算法。在此框架下,把已排序數(shù)據(jù)和已分類數(shù)據(jù)混合組成異構(gòu)數(shù)據(jù),都轉(zhuǎn)化為樣本之間的偏序關(guān)系。Pairwise類型排序?qū)W習算法的思路正好也是將文本排序問題轉(zhuǎn)化為樣本之間偏序關(guān)系的分類問題。因此,可以改造Pairwise類型的文本排序算法來解決基于異構(gòu)訓練數(shù)據(jù)的文本排序問題。本文使用有向圖來直觀描述樣本間偏序關(guān)系,將已分類的數(shù)據(jù)和已排序數(shù)據(jù)混合,用樣本兩兩之間的有向邊來直觀表示偏序關(guān)系。分類數(shù)據(jù)含有正例和負例樣本之間的相互偏序關(guān)系信息,數(shù)學證明異構(gòu)訓練數(shù)據(jù)可以提供比已排序數(shù)據(jù)更多的偏序關(guān)系信息。更多的偏序關(guān)系信息可以提升算法的性能。實驗部分模擬異構(gòu)訓練數(shù)據(jù)的場景,以經(jīng)典算法RankSVM排序?qū)W習算法為例進行實驗。改造LETOR提供的MQ2007、MQ2008和OHSUMED數(shù)據(jù)集,將其中一部分已排序數(shù)據(jù)改造為已分類數(shù)據(jù),與其他已排序數(shù)據(jù)混合,構(gòu)成異構(gòu)訓練數(shù)據(jù)集。并在新構(gòu)造的異構(gòu)訓練數(shù)據(jù)集上可進行實驗,比較使用異構(gòu)訓練數(shù)據(jù)的文本排序?qū)W習算法和僅僅使用已排序訓練數(shù)據(jù)的算法性能,驗證異構(gòu)訓練數(shù)據(jù)對算法性能的提高作用。實驗結(jié)果表明,使用異構(gòu)訓練數(shù)據(jù)訓練排序?qū)W習算法,算法的性能在OHSUMED數(shù)據(jù)集上MAP指標平均提高12.4%,NDCG指標平均提升22.8%,在MQ2007、MQ2008上有所提升但不明顯。
【學位授予單位】:西北農(nóng)林科技大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 巫文佳;李云鵬;閻鉦;趙紅;;網(wǎng)球基礎訓練數(shù)據(jù)的粒計算方法研究[J];長春師范學院學報;2013年06期
2 鄭志洵;楊建剛;;大規(guī)模訓練數(shù)據(jù)的支持向量機學習新方法[J];計算機工程與設計;2006年13期
3 王曉;劉小芳;;基于NSVM的核空間訓練數(shù)據(jù)減少方法[J];電子科技大學學報;2013年04期
4 張曉艷;王挺;梁曉波;;LDA模型在話題追蹤中的應用[J];計算機科學;2011年S1期
5 紀愛兵;邱紅潔;谷銀山;;基于模糊訓練數(shù)據(jù)的支持向量機與模糊線性回歸[J];河北大學學報(自然科學版);2008年03期
6 徐寧;楊震;;一種稀少訓練數(shù)據(jù)條件下的語音轉(zhuǎn)換算法[J];南京郵電大學學報(自然科學版);2010年05期
7 杜俊衛(wèi);李愛軍;;一種基于聚類的文本遷移學習算法[J];計算機系統(tǒng)應用;2010年12期
8 賴珉;陳一寧;初敏;胡訪宇;;訓練數(shù)據(jù)有限的英文語音重音標注研究[J];計算機工程與應用;2007年33期
9 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 郭進;;訓練數(shù)據(jù)量不足怎么辦[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
2 鐘亞平;胡衛(wèi)紅;胡文臣;張軍;張蕾;于飛;孫新昱;吳慶建;馬飛;;基于多通道用戶界面的舉重訓練數(shù)據(jù)管理與測評系統(tǒng)研究[A];第八屆全國體育科學大會論文摘要匯編(一)[C];2007年
中國碩士學位論文全文數(shù)據(jù)庫 前6條
1 王夢陽;基于用戶分析的個性化微博推薦技術(shù)研究[D];蘭州交通大學;2015年
2 張嚕;基于異構(gòu)訓練數(shù)據(jù)的排序?qū)W習算法研究[D];西北農(nóng)林科技大學;2016年
3 黃閩樟;基于監(jiān)督聚類的專利訓練數(shù)據(jù)修剪研究[D];上海交通大學;2010年
4 戴文淵;基于實例和特征的遷移學習算法研究[D];上海交通大學;2009年
5 周科;Tie關(guān)系、遷移學習與偽反饋在排序?qū)W習中的應用[D];上海交通大學;2010年
6 胡虎躍;海量訓練數(shù)據(jù)如何影響人臉檢測器性能:實驗研究[D];南京航空航天大學;2010年
,本文編號:1174039
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1174039.html