基于異構(gòu)訓(xùn)練數(shù)據(jù)的排序?qū)W習(xí)算法研究
本文關(guān)鍵詞:基于異構(gòu)訓(xùn)練數(shù)據(jù)的排序?qū)W習(xí)算法研究
更多相關(guān)文章: 排序?qū)W習(xí)算法 信息檢索 RankSVM Pairwise
【摘要】:在人工構(gòu)造排序數(shù)據(jù)代價(jià)高昂而人工對數(shù)據(jù)進(jìn)行分類的代價(jià)則相對低廉的背景下,本文將已排序數(shù)據(jù)和已分類數(shù)據(jù)組成異構(gòu)訓(xùn)練集來訓(xùn)練排序?qū)W習(xí)算法。本文提出了基于異構(gòu)訓(xùn)練數(shù)據(jù)的排序?qū)W習(xí)算法框架,利用分類數(shù)據(jù)和排序數(shù)據(jù)同時(shí)訓(xùn)練文本排序?qū)W習(xí)算法。在此框架下,把已排序數(shù)據(jù)和已分類數(shù)據(jù)混合組成異構(gòu)數(shù)據(jù),都轉(zhuǎn)化為樣本之間的偏序關(guān)系。Pairwise類型排序?qū)W習(xí)算法的思路正好也是將文本排序問題轉(zhuǎn)化為樣本之間偏序關(guān)系的分類問題。因此,可以改造Pairwise類型的文本排序算法來解決基于異構(gòu)訓(xùn)練數(shù)據(jù)的文本排序問題。本文使用有向圖來直觀描述樣本間偏序關(guān)系,將已分類的數(shù)據(jù)和已排序數(shù)據(jù)混合,用樣本兩兩之間的有向邊來直觀表示偏序關(guān)系。分類數(shù)據(jù)含有正例和負(fù)例樣本之間的相互偏序關(guān)系信息,數(shù)學(xué)證明異構(gòu)訓(xùn)練數(shù)據(jù)可以提供比已排序數(shù)據(jù)更多的偏序關(guān)系信息。更多的偏序關(guān)系信息可以提升算法的性能。實(shí)驗(yàn)部分模擬異構(gòu)訓(xùn)練數(shù)據(jù)的場景,以經(jīng)典算法RankSVM排序?qū)W習(xí)算法為例進(jìn)行實(shí)驗(yàn)。改造LETOR提供的MQ2007、MQ2008和OHSUMED數(shù)據(jù)集,將其中一部分已排序數(shù)據(jù)改造為已分類數(shù)據(jù),與其他已排序數(shù)據(jù)混合,構(gòu)成異構(gòu)訓(xùn)練數(shù)據(jù)集。并在新構(gòu)造的異構(gòu)訓(xùn)練數(shù)據(jù)集上可進(jìn)行實(shí)驗(yàn),比較使用異構(gòu)訓(xùn)練數(shù)據(jù)的文本排序?qū)W習(xí)算法和僅僅使用已排序訓(xùn)練數(shù)據(jù)的算法性能,驗(yàn)證異構(gòu)訓(xùn)練數(shù)據(jù)對算法性能的提高作用。實(shí)驗(yàn)結(jié)果表明,使用異構(gòu)訓(xùn)練數(shù)據(jù)訓(xùn)練排序?qū)W習(xí)算法,算法的性能在OHSUMED數(shù)據(jù)集上MAP指標(biāo)平均提高12.4%,NDCG指標(biāo)平均提升22.8%,在MQ2007、MQ2008上有所提升但不明顯。
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 巫文佳;李云鵬;閻鉦;趙紅;;網(wǎng)球基礎(chǔ)訓(xùn)練數(shù)據(jù)的粒計(jì)算方法研究[J];長春師范學(xué)院學(xué)報(bào);2013年06期
2 鄭志洵;楊建剛;;大規(guī)模訓(xùn)練數(shù)據(jù)的支持向量機(jī)學(xué)習(xí)新方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年13期
3 王曉;劉小芳;;基于NSVM的核空間訓(xùn)練數(shù)據(jù)減少方法[J];電子科技大學(xué)學(xué)報(bào);2013年04期
4 張曉艷;王挺;梁曉波;;LDA模型在話題追蹤中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2011年S1期
5 紀(jì)愛兵;邱紅潔;谷銀山;;基于模糊訓(xùn)練數(shù)據(jù)的支持向量機(jī)與模糊線性回歸[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期
6 徐寧;楊震;;一種稀少訓(xùn)練數(shù)據(jù)條件下的語音轉(zhuǎn)換算法[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
7 杜俊衛(wèi);李愛軍;;一種基于聚類的文本遷移學(xué)習(xí)算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年12期
8 賴珉;陳一寧;初敏;胡訪宇;;訓(xùn)練數(shù)據(jù)有限的英文語音重音標(biāo)注研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年33期
9 ;[J];;年期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 郭進(jìn);;訓(xùn)練數(shù)據(jù)量不足怎么辦[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
2 鐘亞平;胡衛(wèi)紅;胡文臣;張軍;張蕾;于飛;孫新昱;吳慶建;馬飛;;基于多通道用戶界面的舉重訓(xùn)練數(shù)據(jù)管理與測評系統(tǒng)研究[A];第八屆全國體育科學(xué)大會(huì)論文摘要匯編(一)[C];2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 王夢陽;基于用戶分析的個(gè)性化微博推薦技術(shù)研究[D];蘭州交通大學(xué);2015年
2 張嚕;基于異構(gòu)訓(xùn)練數(shù)據(jù)的排序?qū)W習(xí)算法研究[D];西北農(nóng)林科技大學(xué);2016年
3 黃閩樟;基于監(jiān)督聚類的專利訓(xùn)練數(shù)據(jù)修剪研究[D];上海交通大學(xué);2010年
4 戴文淵;基于實(shí)例和特征的遷移學(xué)習(xí)算法研究[D];上海交通大學(xué);2009年
5 周科;Tie關(guān)系、遷移學(xué)習(xí)與偽反饋在排序?qū)W習(xí)中的應(yīng)用[D];上海交通大學(xué);2010年
6 胡虎躍;海量訓(xùn)練數(shù)據(jù)如何影響人臉檢測器性能:實(shí)驗(yàn)研究[D];南京航空航天大學(xué);2010年
,本文編號:1174039
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1174039.html