異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)及其在網(wǎng)絡(luò)搜索中的應(yīng)用
[Abstract]:This paper studies the similarity learning of heterogeneous data and the application of similarity learning in Web search. Similarity learning plays an important role in many applications such as web search, recommendation system, image annotation and machine translation. Essentially, the tasks of these applications can be summed up as learning and utilizing a phase. The similarity function matches two heterogeneous instances. These two instances are queries and documents in network search, users and objects in recommendation system, keywords and pictures in image annotation, and translations in two languages in machine translation. In particular, search engines are the media networks that produce query document matches in network search. The rapid expansion of information on the Internet makes people's lives more and more inseparable from search engines. The task of search engines is to retrieve relevant documents from queries submitted by different users and to sort them according to their relevance. Queries and documents are two heterogeneous instances whose correlation is determined by their similarity. In this paper, the inner product of Hilbert space is defined as similarity function. Specifically, two kinds of heterogeneity are discussed.
The mapping function maps heterogeneous instances to the same Hilbert space and the inner product of the mapping image is defined as a similarity function. Under this definition, this paper considers two ways to learn the similarity of heterogeneous data: (1) First, the mapping function is studied, and then the inner product of the mapping image is calculated. In each way, this paper attempts to solve three problems: (1) how to synthesize information from different sources. For example, in Web search, both the content of query and document and the click through data can be used to learn similarity functions; (2) how to Improve the efficiency and scalability of the learning algorithm, so that it can deal with massive data; (3) How to analyze the generalization ability of the learning algorithm.
In this paper, we first consider learning mappings and then defining similarity functions by the inner product of the mapping image. In particular, we consider learning two linear mappings, and then the final similarity function is represented by a bilinear form. Orthogonal. Under this assumption, a multi-view learning method is proposed. This method can effectively utilize information from different sources. Subsequently, in order to improve the efficiency and scalability of learning, a regularization method is given. Specifically, we constrain the l_1 norm and l_2 norm of linear mapping row vectors. This assumption guarantees the sparsity of the solution and makes the algorithm easy to parallelize. Finally, the generalization ability of similarity learning methods is systematically studied.
Then, we consider directly defining the hypothesis space of the similarity function to learn the similarity function of heterogeneous data. In particular, we propose a kernel-based similarity learning by using the kernel method in machine learning. In order to improve the efficiency of the learning algorithm, an on-line approximation of the algorithm is proposed.
We apply heterogeneous data similarity learning to network search, and show that the proposed learning method can solve the term mismatch problem in network search. We experimented on real large-scale enterprise search data and network search data. It effectively overcomes the problem of word mismatch and significantly improves the performance of traditional methods in relativity ranking and similar query discovery.
【學(xué)位授予單位】:北京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 程鴻;;技術(shù)——網(wǎng)絡(luò)搜索的核心競爭力[J];互聯(lián)網(wǎng)天地;2004年08期
2 邢志宇;;網(wǎng)絡(luò)搜索中的檢索式及其構(gòu)建[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2007年17期
3 武二偉;;網(wǎng)絡(luò)搜索中的檢索式及其構(gòu)建[J];情報(bào)科學(xué);2009年05期
4 王冰睿;;鮑爾默冀望bing改變競爭格局 微軟新搜索品牌在敵視中誕生[J];IT時(shí)代周刊;2009年12期
5 一嘯傾城;;搜出隨心所欲[J];電腦迷;2010年06期
6 ;Windows 7哪種網(wǎng)絡(luò)共享方式適合我?[J];數(shù)碼世界(B版);2011年01期
7 飄零雪;;亮出你的搜索結(jié)果[J];電腦迷;2005年08期
8 邢志宇;;分類搜索引擎探析[J];河南圖書館學(xué)刊;2006年05期
9 ;新產(chǎn)品&工具點(diǎn)評[J];程序員;2007年05期
10 李紅巖;;智能Agent技術(shù)淺談[J];科技信息;2008年33期
相關(guān)會(huì)議論文 前10條
1 張陣陣;劉永昌;馮嘉禮;;最大相似結(jié)構(gòu)互補(bǔ)結(jié)合與最大相似功能互補(bǔ)匹配的相似度函數(shù)建立[A];中國生物化學(xué)與分子生物學(xué)會(huì)第八屆會(huì)員代表大會(huì)暨全國學(xué)術(shù)會(huì)議論文摘要集[C];2001年
2 盧福剛;趙榮椿;;紅外圖象斑塊狀目標(biāo)自動(dòng)檢測[A];中國圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國圖象圖形科技大會(huì)論文集[C];1998年
3 郁梅;董海濤;蔣剛毅;;基于視差插值與相似度的多視點(diǎn)視差估計(jì)算法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
4 褚庭亮;王茂生;湯文杰;趙蕾;;基于網(wǎng)絡(luò)搜索的CTP主流技術(shù)分析實(shí)驗(yàn)報(bào)告[A];2008印刷版材發(fā)展技術(shù)論壇論文集[C];2008年
5 蘇航;張解;陳曉玲;木原重光;張永權(quán);;多國鋼鐵材料牌號的計(jì)算機(jī)自動(dòng)匹配技術(shù)[A];2005年全國計(jì)算材料、模擬與圖像分析學(xué)術(shù)會(huì)議論文集[C];2005年
6 余小高;;P2P環(huán)境中k最近鄰搜索算法研究[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2009年
7 王新燕;范金剛;;初探云計(jì)算[A];兩化融合與物聯(lián)網(wǎng)發(fā)展學(xué)術(shù)研討會(huì)論文集[C];2010年
8 劉素萍;仁立學(xué);胡廣春;胡永波;郝樊華;儲誠勝;;夾角余弦法用于輻射源一致性判定的評估[A];第十四屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(下冊)[C];2008年
9 劉素萍;仁立學(xué);胡廣春;胡永波;郝樊華;儲誠勝;;夾角余弦法用于輻射源一致性判定的評估[A];第十四屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會(huì)論文集(2)[C];2008年
10 陳伯倫;陳];王俊生;;一種基于距離調(diào)節(jié)的聚類算法[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊)[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 ;網(wǎng)絡(luò)搜索誰主沉浮[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2004年
2 本報(bào)記者 惠正一;Google 12億美元收購廣播廣告公司[N];第一財(cái)經(jīng)日報(bào);2006年
3 車文秋;關(guān)注網(wǎng)絡(luò)搜索中的商標(biāo)問題[N];中國知識產(chǎn)權(quán)報(bào);2006年
4 ;打開搜索的窗戶就打開了世界[N];中國經(jīng)營報(bào);2005年
5 記者 王俊鳴;美開發(fā)出新的網(wǎng)絡(luò)搜索軟件[N];科技日報(bào);2000年
6 譚俞雄;網(wǎng)絡(luò)搜索市場呼喚誠信[N];中華工商時(shí)報(bào);2004年
7 李 贄;中國搜索:網(wǎng)絡(luò)之行始于“豬”[N];大眾科技報(bào);2004年
8 南京工程學(xué)院仿真部 施建強(qiáng);用VB制作網(wǎng)絡(luò)搜索軟件[N];計(jì)算機(jī)世界;2002年
9 本報(bào)記者 劉笑一;網(wǎng)絡(luò)搜索指數(shù)將成購房“風(fēng)向標(biāo)”[N];中國房地產(chǎn)報(bào);2004年
10 四川 許睿;網(wǎng)絡(luò)搜索利器——GoToLink媒體中心[N];電腦報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 武威;異質(zhì)數(shù)據(jù)相似度學(xué)習(xí)及其在網(wǎng)絡(luò)搜索中的應(yīng)用[D];北京大學(xué);2012年
2 鄭中團(tuán);基于隨機(jī)圖演化與圖上隨機(jī)游動(dòng)的復(fù)雜網(wǎng)絡(luò)研究[D];上海大學(xué);2009年
3 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年
4 曲建華;基于群體智能的聚類分析[D];山東師范大學(xué);2010年
5 董寶力;Web制造資源的語義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
6 袁慶霓;基于網(wǎng)絡(luò)化制造環(huán)境的制造資源共享服務(wù)語義關(guān)鍵技術(shù)研究[D];西南交通大學(xué);2010年
7 黃杰賢;FPC外觀缺陷自動(dòng)光學(xué)檢測關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2012年
8 吳宇;對等網(wǎng)絡(luò)內(nèi)容搜索及索引緩存研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
9 顧弘;基于半監(jiān)督聚類分析及廣義距離函數(shù)學(xué)習(xí)的圖像識別技術(shù)研究[D];浙江大學(xué);2011年
10 沈鄭燕;聲納圖像去噪與分割技術(shù)研究[D];哈爾濱工程大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 于耀輝;網(wǎng)絡(luò)搜索服務(wù)提供商侵犯著作權(quán)的刑事責(zé)任[D];中國政法大學(xué);2010年
2 梁繼能;基于三層體系結(jié)構(gòu)的網(wǎng)絡(luò)搜索與信息處理系統(tǒng)[D];廣東工業(yè)大學(xué);2005年
3 龐永杰;基于Web的社會(huì)網(wǎng)絡(luò)搜索中人名同一性判斷方法研究[D];華中科技大學(xué);2011年
4 劉嵐;Web News Hunter智能代理[D];中國科學(xué)院研究生院(軟件研究所);2003年
5 劉小燕;上海大學(xué)生網(wǎng)絡(luò)自我效能的實(shí)證研究[D];上海師范大學(xué);2005年
6 羅琪;模糊聚類算法及其在入侵檢測中的應(yīng)用[D];西安電子科技大學(xué);2008年
7 田震;字符識別研究及其應(yīng)用[D];北方工業(yè)大學(xué);2012年
8 劉樹勛;Internet智能搜索Agent研究與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2000年
9 王可為;基于統(tǒng)計(jì)的雙語術(shù)語自動(dòng)抽取[D];南京理工大學(xué);2007年
10 張宇;數(shù)字圖像椒鹽噪聲濾波算法研究[D];哈爾濱理工大學(xué);2009年
本文編號:2227661
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2227661.html