天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)及其在網(wǎng)絡(luò)搜索中的應(yīng)用

發(fā)布時(shí)間:2018-09-07 07:53
【摘要】:本文研究異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)的問題,以及相似度學(xué)習(xí)在網(wǎng)絡(luò)搜索中的應(yīng)用。相似度學(xué)習(xí)在網(wǎng)絡(luò)搜索,推薦系統(tǒng),圖片標(biāo)注以及機(jī)器翻譯等諸多應(yīng)用中都扮演著重要的角色。本質(zhì)上來說,這些應(yīng)用的任務(wù)都可以歸結(jié)為學(xué)習(xí)并利用一個(gè)相似度函數(shù)來匹配兩種異質(zhì)的實(shí)例。這兩種實(shí)例在網(wǎng)絡(luò)搜索中是查詢和文檔,在推薦系統(tǒng)中是用戶和物品,在圖片標(biāo)注中是關(guān)鍵詞和圖片,在機(jī)器翻譯中是兩種語言下的翻譯。特別的,在網(wǎng)絡(luò)搜索中,搜索引擎是產(chǎn)生查詢文檔匹配的媒介網(wǎng)絡(luò)上信息的急劇膨脹使人們的生活越來越離不開搜索引擎。搜索引擎的任務(wù)是對不同用戶提出的查詢檢索相關(guān)文檔,并根據(jù)其相關(guān)性大小產(chǎn)生文檔排序。查詢與文檔是兩種異質(zhì)實(shí)例,它們的相關(guān)性由它們之間的相似度決定。相似度函數(shù)的好壞直接決定了搜索引擎性能的優(yōu)劣。本文定義希爾伯特空間的內(nèi)積作為相似度函數(shù)。具體來說,本文為兩種異質(zhì) 實(shí)例分別定義一個(gè)映射函數(shù)。映射函數(shù)將異質(zhì)實(shí)例映射到相同的希爾伯特空間然后映射像的內(nèi)積被定義為相似度函數(shù)。在這樣的定義下,本文考慮以兩種方式學(xué)習(xí)異質(zhì)數(shù)據(jù)的相似度:(1)先學(xué)習(xí)映射函數(shù),然后再計(jì)算映射像的內(nèi)積得到相似度函數(shù);(2)直接學(xué)習(xí)相似度函數(shù)。在每一種方式下,本文試圖解決三個(gè)問題(1)如何綜合利用來自不同源的各種信息。例如,在網(wǎng)絡(luò)搜索中,查詢與文檔的內(nèi)容以及用戶點(diǎn)擊數(shù)據(jù)(click through data)都可以被用來學(xué)習(xí)相似度函數(shù);(2)如何提高學(xué)習(xí)算法的效率及擴(kuò)展性(scalability),使其能夠處理海量的數(shù)據(jù);(3)如何分析學(xué)習(xí)算法的泛化能力。 本文首先考慮先學(xué)習(xí)映射,再通過映射像的內(nèi)積定義相似度函數(shù)。特別的,本文考慮學(xué)習(xí)兩個(gè)線性映射,那么最后的相似度函數(shù)由一個(gè)雙線性型表示。在這種方法下,本文為線性映射定義了兩種假設(shè)空間。首先,我們要求線性映射的列單位正交。在這個(gè)假設(shè)下,本文提出了一個(gè)多視角(multi-view)的學(xué)習(xí)方法。該方法能有效利用來自不同源的各種信息。隨后,為了提高學(xué)習(xí)的效率和擴(kuò)展性,本文又給出了一個(gè)正則化的方法。具體來說,我們約束線性映射行向量的l_1范數(shù)和l_2范數(shù)。這個(gè)假設(shè)保證了解的稀疏性,同時(shí)使得算法很容易并行化。最后,本文還系統(tǒng)地研究了相似度學(xué)習(xí)方法的泛化能力。 隨后,,本文考慮直接定義相似度函數(shù)的假設(shè)空間來學(xué)習(xí)異質(zhì)數(shù)據(jù)相似度函數(shù)。特別的,本文利用了機(jī)器學(xué)習(xí)中的核方法,提出了一種基于核的相似度學(xué)習(xí)。具體來說,本文定義了一種特殊的半正定核:S-核。一個(gè)S-核可以生成一個(gè)相似度函數(shù)的假設(shè)空間。核方法可以保證解的最優(yōu)性以及它的泛化能力。為了提高學(xué)習(xí)算法的效率,本文提出了一個(gè)算法的在線近似。 我們將異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)應(yīng)用到網(wǎng)絡(luò)搜索中,并說明本文提出的學(xué)習(xí)方法可以解決網(wǎng)絡(luò)搜索中的詞語不匹配(term mismatch)問題。我們在真實(shí)的大規(guī)模企業(yè)搜索數(shù)據(jù)和網(wǎng)絡(luò)搜索數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)效果表明,本文提出的方法可以有效地克服詞語不匹配問題,顯著地改善傳統(tǒng)方法在相關(guān)性排序,以及相似查詢發(fā)現(xiàn)上的表現(xiàn)。
[Abstract]:This paper studies the similarity learning of heterogeneous data and the application of similarity learning in Web search. Similarity learning plays an important role in many applications such as web search, recommendation system, image annotation and machine translation. Essentially, the tasks of these applications can be summed up as learning and utilizing a phase. The similarity function matches two heterogeneous instances. These two instances are queries and documents in network search, users and objects in recommendation system, keywords and pictures in image annotation, and translations in two languages in machine translation. In particular, search engines are the media networks that produce query document matches in network search. The rapid expansion of information on the Internet makes people's lives more and more inseparable from search engines. The task of search engines is to retrieve relevant documents from queries submitted by different users and to sort them according to their relevance. Queries and documents are two heterogeneous instances whose correlation is determined by their similarity. In this paper, the inner product of Hilbert space is defined as similarity function. Specifically, two kinds of heterogeneity are discussed.
The mapping function maps heterogeneous instances to the same Hilbert space and the inner product of the mapping image is defined as a similarity function. Under this definition, this paper considers two ways to learn the similarity of heterogeneous data: (1) First, the mapping function is studied, and then the inner product of the mapping image is calculated. In each way, this paper attempts to solve three problems: (1) how to synthesize information from different sources. For example, in Web search, both the content of query and document and the click through data can be used to learn similarity functions; (2) how to Improve the efficiency and scalability of the learning algorithm, so that it can deal with massive data; (3) How to analyze the generalization ability of the learning algorithm.
In this paper, we first consider learning mappings and then defining similarity functions by the inner product of the mapping image. In particular, we consider learning two linear mappings, and then the final similarity function is represented by a bilinear form. Orthogonal. Under this assumption, a multi-view learning method is proposed. This method can effectively utilize information from different sources. Subsequently, in order to improve the efficiency and scalability of learning, a regularization method is given. Specifically, we constrain the l_1 norm and l_2 norm of linear mapping row vectors. This assumption guarantees the sparsity of the solution and makes the algorithm easy to parallelize. Finally, the generalization ability of similarity learning methods is systematically studied.
Then, we consider directly defining the hypothesis space of the similarity function to learn the similarity function of heterogeneous data. In particular, we propose a kernel-based similarity learning by using the kernel method in machine learning. In order to improve the efficiency of the learning algorithm, an on-line approximation of the algorithm is proposed.
We apply heterogeneous data similarity learning to network search, and show that the proposed learning method can solve the term mismatch problem in network search. We experimented on real large-scale enterprise search data and network search data. It effectively overcomes the problem of word mismatch and significantly improves the performance of traditional methods in relativity ranking and similar query discovery.
【學(xué)位授予單位】:北京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 程鴻;;技術(shù)——網(wǎng)絡(luò)搜索的核心競爭力[J];互聯(lián)網(wǎng)天地;2004年08期

2 邢志宇;;網(wǎng)絡(luò)搜索中的檢索式及其構(gòu)建[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2007年17期

3 武二偉;;網(wǎng)絡(luò)搜索中的檢索式及其構(gòu)建[J];情報(bào)科學(xué);2009年05期

4 王冰睿;;鮑爾默冀望bing改變競爭格局 微軟新搜索品牌在敵視中誕生[J];IT時(shí)代周刊;2009年12期

5 一嘯傾城;;搜出隨心所欲[J];電腦迷;2010年06期

6 ;Windows 7哪種網(wǎng)絡(luò)共享方式適合我?[J];數(shù)碼世界(B版);2011年01期

7 飄零雪;;亮出你的搜索結(jié)果[J];電腦迷;2005年08期

8 邢志宇;;分類搜索引擎探析[J];河南圖書館學(xué)刊;2006年05期

9 ;新產(chǎn)品&工具點(diǎn)評[J];程序員;2007年05期

10 李紅巖;;智能Agent技術(shù)淺談[J];科技信息;2008年33期

相關(guān)會(huì)議論文 前10條

1 張陣陣;劉永昌;馮嘉禮;;最大相似結(jié)構(gòu)互補(bǔ)結(jié)合與最大相似功能互補(bǔ)匹配的相似度函數(shù)建立[A];中國生物化學(xué)與分子生物學(xué)會(huì)第八屆會(huì)員代表大會(huì)暨全國學(xué)術(shù)會(huì)議論文摘要集[C];2001年

2 盧福剛;趙榮椿;;紅外圖象斑塊狀目標(biāo)自動(dòng)檢測[A];中國圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國圖象圖形科技大會(huì)論文集[C];1998年

3 郁梅;董海濤;蔣剛毅;;基于視差插值與相似度的多視點(diǎn)視差估計(jì)算法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

4 褚庭亮;王茂生;湯文杰;趙蕾;;基于網(wǎng)絡(luò)搜索的CTP主流技術(shù)分析實(shí)驗(yàn)報(bào)告[A];2008印刷版材發(fā)展技術(shù)論壇論文集[C];2008年

5 蘇航;張解;陳曉玲;木原重光;張永權(quán);;多國鋼鐵材料牌號的計(jì)算機(jī)自動(dòng)匹配技術(shù)[A];2005年全國計(jì)算材料、模擬與圖像分析學(xué)術(shù)會(huì)議論文集[C];2005年

6 余小高;;P2P環(huán)境中k最近鄰搜索算法研究[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2009年

7 王新燕;范金剛;;初探云計(jì)算[A];兩化融合與物聯(lián)網(wǎng)發(fā)展學(xué)術(shù)研討會(huì)論文集[C];2010年

8 劉素萍;仁立學(xué);胡廣春;胡永波;郝樊華;儲誠勝;;夾角余弦法用于輻射源一致性判定的評估[A];第十四屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(下冊)[C];2008年

9 劉素萍;仁立學(xué);胡廣春;胡永波;郝樊華;儲誠勝;;夾角余弦法用于輻射源一致性判定的評估[A];第十四屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(2)[C];2008年

10 陳伯倫;陳];王俊生;;一種基于距離調(diào)節(jié)的聚類算法[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊)[C];2008年

相關(guān)重要報(bào)紙文章 前10條

1 ;網(wǎng)絡(luò)搜索誰主沉浮[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2004年

2 本報(bào)記者 惠正一;Google 12億美元收購廣播廣告公司[N];第一財(cái)經(jīng)日報(bào);2006年

3 車文秋;關(guān)注網(wǎng)絡(luò)搜索中的商標(biāo)問題[N];中國知識產(chǎn)權(quán)報(bào);2006年

4 ;打開搜索的窗戶就打開了世界[N];中國經(jīng)營報(bào);2005年

5 記者 王俊鳴;美開發(fā)出新的網(wǎng)絡(luò)搜索軟件[N];科技日報(bào);2000年

6 譚俞雄;網(wǎng)絡(luò)搜索市場呼喚誠信[N];中華工商時(shí)報(bào);2004年

7 李 贄;中國搜索:網(wǎng)絡(luò)之行始于“豬”[N];大眾科技報(bào);2004年

8 南京工程學(xué)院仿真部 施建強(qiáng);用VB制作網(wǎng)絡(luò)搜索軟件[N];計(jì)算機(jī)世界;2002年

9 本報(bào)記者 劉笑一;網(wǎng)絡(luò)搜索指數(shù)將成購房“風(fēng)向標(biāo)”[N];中國房地產(chǎn)報(bào);2004年

10 四川 許睿;網(wǎng)絡(luò)搜索利器——GoToLink媒體中心[N];電腦報(bào);2003年

相關(guān)博士學(xué)位論文 前10條

1 武威;異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)及其在網(wǎng)絡(luò)搜索中的應(yīng)用[D];北京大學(xué);2012年

2 鄭中團(tuán);基于隨機(jī)圖演化與圖上隨機(jī)游動(dòng)的復(fù)雜網(wǎng)絡(luò)研究[D];上海大學(xué);2009年

3 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年

4 曲建華;基于群體智能的聚類分析[D];山東師范大學(xué);2010年

5 董寶力;Web制造資源的語義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年

6 袁慶霓;基于網(wǎng)絡(luò)化制造環(huán)境的制造資源共享服務(wù)語義關(guān)鍵技術(shù)研究[D];西南交通大學(xué);2010年

7 黃杰賢;FPC外觀缺陷自動(dòng)光學(xué)檢測關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2012年

8 吳宇;對等網(wǎng)絡(luò)內(nèi)容搜索及索引緩存研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年

9 顧弘;基于半監(jiān)督聚類分析及廣義距離函數(shù)學(xué)習(xí)的圖像識別技術(shù)研究[D];浙江大學(xué);2011年

10 沈鄭燕;聲納圖像去噪與分割技術(shù)研究[D];哈爾濱工程大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 于耀輝;網(wǎng)絡(luò)搜索服務(wù)提供商侵犯著作權(quán)的刑事責(zé)任[D];中國政法大學(xué);2010年

2 梁繼能;基于三層體系結(jié)構(gòu)的網(wǎng)絡(luò)搜索與信息處理系統(tǒng)[D];廣東工業(yè)大學(xué);2005年

3 龐永杰;基于Web的社會(huì)網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年

4 劉嵐;Web News Hunter智能代理[D];中國科學(xué)院研究生院(軟件研究所);2003年

5 劉小燕;上海大學(xué)生網(wǎng)絡(luò)自我效能的實(shí)證研究[D];上海師范大學(xué);2005年

6 羅琪;模糊聚類算法及其在入侵檢測中的應(yīng)用[D];西安電子科技大學(xué);2008年

7 田震;字符識別研究及其應(yīng)用[D];北方工業(yè)大學(xué);2012年

8 劉樹勛;Internet智能搜索Agent研究與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2000年

9 王可為;基于統(tǒng)計(jì)的雙語術(shù)語自動(dòng)抽取[D];南京理工大學(xué);2007年

10 張宇;數(shù)字圖像椒鹽噪聲濾波算法研究[D];哈爾濱理工大學(xué);2009年



本文編號:2227661

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2227661.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6e75a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com