機器學(xué)習(xí)排序系統(tǒng)的設(shè)計與實現(xiàn)
本文選題:搜索 + 排序; 參考:《北京郵電大學(xué)》2013年碩士論文
【摘要】:本文首先對搜索引擎中的排序系統(tǒng)作了簡要的分析,介紹了近期新出現(xiàn)的機器學(xué)習(xí)排序的概念,對其中樣本標注所采用的眾包標注技術(shù)的國內(nèi)外研究情況進行了介紹。之后本文針對眾包標注準確率低的問題提出了一套解決方法,包括了計算對標注數(shù)據(jù)投票的一致程度、引入用戶點擊數(shù)據(jù)來判別標注的正確性等。其中利用點擊數(shù)據(jù)來判別標注正確性的方法包括基于單點點擊特征的判別方法和基于配對點擊特征的對比判別方法。最后本文設(shè)計并實現(xiàn)了一套將用戶行為作為排序特征加入到排序模型中的系統(tǒng)。這些用戶行為包括了用戶在搜索引擎結(jié)果頁上的點擊行為和用戶在瀏覽著陸頁的行為等。同時本文還介紹了如何將用戶行為描述為用戶對相關(guān)性的感知及如何預(yù)處理用戶行為數(shù)據(jù)。最后為了驗證提高標注數(shù)據(jù)準確率的方法和加入用戶行為特征的有效性,本文從目前主流的搜索引擎評估算法中選取了針對本文的評估策略,并且通過相應(yīng)的實驗證明了本文所述方法的有效性。
[Abstract]:In this paper, the sorting system in search engine is analyzed briefly, the concept of machine learning ranking is introduced, and the research situation of crowdsourcing tagging technology used in sample tagging is introduced at home and abroad. Then this paper puts forward a set of methods to solve the problem of low accuracy of crowdsourcing tagging, including calculating the consistent degree of voting for annotated data, introducing user click data to judge the correctness of tagging and so on. Among them, the method of using click data to judge the correctness of tagging includes single click feature based discrimination method and pairing click feature based comparison discrimination method. Finally, this paper designs and implements a system that adds user behavior to the sorting model as a sort feature. These user behaviors include the user's click behavior on the search engine results page and the user's behavior in browsing the landing page. This paper also introduces how to describe user behavior as user perception of correlation and how to preprocess user behavior data. Finally, in order to verify the effectiveness of the methods to improve the accuracy of tagging data and to add user behavior features, this paper selects the evaluation strategy for this paper from the current mainstream search engine evaluation algorithm. The effectiveness of the proposed method is proved by corresponding experiments.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3;TP181
【相似文獻】
相關(guān)期刊論文 前10條
1 胡俊翹,,胡友蘭,李德群;改進的基因遺傳算法在專家系統(tǒng)機器學(xué)習(xí)中的應(yīng)用[J];計算機輔助工程;1994年01期
2 閻明印,欒江南,楊叔子;具有學(xué)習(xí)功能的機械設(shè)備智能診斷系統(tǒng)[J];沈陽工業(yè)學(xué)院學(xué)報;1997年04期
3 高陽;周志華;孫晨;陳兆乾;陳世福;;從FTART網(wǎng)絡(luò)中抽取if-then規(guī)則[J];模式識別與人工智能;1999年04期
4 吳艷;劉建波;;電子郵件自動處理的用戶模型設(shè)計[J];沈陽化工學(xué)院學(xué)報;2005年04期
5 胡彩霞;;利用決策樹獲取搜索結(jié)果頁面中的匹配數(shù)[J];科技咨詢導(dǎo)報;2007年06期
6 劉星毅;農(nóng)國才;;幾種不同缺失值填充方法的比較[J];南寧師范高等專科學(xué)校學(xué)報;2007年03期
7 魯曉南;接標;;一種基于個性化郵件特征的反垃圾郵件系統(tǒng)[J];計算機技術(shù)與發(fā)展;2009年08期
8 王存睿;文晉;;基于人臉檢測的教室信息智能采集系統(tǒng)[J];大連民族學(xué)院學(xué)報;2009年05期
9 閻巍;;基于決策樹的軟件項目估算方法[J];計算機工程與科學(xué);2009年08期
10 王厚峰;;計算語言學(xué)歧義消解研究——兼介紹北京大學(xué)計算語言學(xué)教育部重點實驗室[J];術(shù)語標準化與信息技術(shù);2010年03期
相關(guān)會議論文 前10條
1 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機器學(xué)習(xí)在中醫(yī)計算機診斷識別系統(tǒng)中的應(yīng)用思考[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年
2 李月倫;常寶寶;;基于最大間隔馬爾可夫網(wǎng)模型的漢語分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
3 謝世朋;胡茂林;;基于局部仿射區(qū)域?qū)ο∈杓y理分類的研究[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
4 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
5 張郴;;基于神經(jīng)網(wǎng)絡(luò)集成的旅游需求預(yù)測模型[A];中國地理學(xué)會百年慶典學(xué)術(shù)論文摘要集[C];2009年
6 吳憲祥;于培松;萬e
本文編號:2110147
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2110147.html