廣告搜索中的查詢處理算法
本文選題:廣告搜索 + 查詢處理 ; 參考:《上海交通大學(xué)》2011年碩士論文
【摘要】:文本廣告搜索為搜索引擎的全網(wǎng)搜索提供相關(guān)的、有針對性的文本廣告。要匹配查詢最相關(guān)的廣告,廣告搜索引擎應(yīng)用了很多查詢處理的技術(shù),其中包括布爾檢索和對稀有廣告查詢短語進(jìn)行擴(kuò)展。 現(xiàn)有最好的廣告查詢短語擴(kuò)展算法都是依賴于搜索引擎的檢索結(jié)果,這樣導(dǎo)致依賴性太強(qiáng),不能形成一個(gè)獨(dú)立的廣告搜索系統(tǒng)。在尋找可靠的外部資源時(shí),我們選擇了維基百科。通過使用網(wǎng)頁查詢短語在已有的維基系統(tǒng)上進(jìn)行檢索top-檢索,我們可以得到能夠重新表達(dá)這個(gè)查詢短語的信息。通過這些信息,我們可以重新構(gòu)建廣告查詢短語,然后使用這個(gè)新的廣告查詢短語到現(xiàn)有的廣告庫中進(jìn)行搜索。隨后,我們也設(shè)計(jì)了一系列的實(shí)驗(yàn)來證明我們的方法是非常有效。 因?yàn)槿跖c關(guān)系能夠控制檢索的結(jié)果數(shù)量,所以在廣告搜索的查詢中我們使用弱與關(guān)系來解決經(jīng)典關(guān)系帶來的問題。但是因?yàn)楝F(xiàn)有的弱與關(guān)系處理速度不夠快,我們將提出一個(gè)全新高效的弱與關(guān)系處理框架。這個(gè)框架有效的利用了弱與關(guān)系的兩個(gè)屬性特點(diǎn):分詞后的詞權(quán)重和弱與關(guān)系特有的一個(gè)閾值參數(shù)。我們首先關(guān)注查詢中的一種非常特別的詞。在分詞后,查詢短語中有一部分詞權(quán)重可能非常高,以至于這一部分詞必須出現(xiàn)在結(jié)果文集中。這種詞我們稱之為“強(qiáng)制詞”。如果有這種類型的詞,我們就可以很容易的構(gòu)造一種非?焖俚幕趶(qiáng)制詞弱與關(guān)系高效算法。然而,并不是所有的查詢短語都含有強(qiáng)制詞,因此我們又構(gòu)建一種基于敗者樹的算法。通過和最原始的弱與關(guān)系算法相結(jié)合,這三種算法構(gòu)建了我們的弱與關(guān)系處理框架。實(shí)驗(yàn)證明我們的方法比之前的方法更加有效,并且也非常健壯。
[Abstract]:Text advertising search provides relevant, targeted text ads for search engines throughout the web. To match the most relevant advertisements of query search engines employ a number of query processing techniques including Boolean retrieval and the extension of rare ad query phrases. At present, the best algorithms are all dependent on the search results of search engine, which leads to the dependence too strong to form an independent advertising search system. In the search for reliable external resources, we chose Wikipedia. By using the web page query phrase to retrieve top-retrieval on the existing wiki system, we can get the information that can reexpress the query phrase. With this information, we can rebuild the ad query phrase, and then use the new ad query phrase to search the existing advertising library. Subsequently, we also designed a series of experiments to prove that our method is very effective. Because weak and relationship can control the number of retrieval results, we use weak and relationship to solve the problem caused by classical relationship in advertising search query. However, due to the existing weak and relational processing speed is not fast enough, we will propose a new and efficient weak and relational processing framework. This framework effectively utilizes the two attributes of weak and relation: word weight after word segmentation and a threshold parameter of weak and relation. We first look at a very special word in the query. After participle segmentation, some of the words in the query phrase may have a very high weight, so that the part of the word must appear in the result set. This kind of word we call "compulsive word". If we have this type of word, we can easily construct a very fast algorithm based on forced word weakness and relationship. However, not all query phrases contain mandatory words, so we construct an algorithm based on the loser tree. By combining with the most primitive weak and relational algorithms, these three algorithms construct our weak and relational processing framework. Experiments show that our method is more effective and robust than previous methods.
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃名選;馬瑞興;蘭慧紅;;面向查詢擴(kuò)展的特征詞頻繁項(xiàng)集挖掘算法[J];現(xiàn)代圖書情報(bào)技術(shù);2011年04期
2 王水利;黃廣君;霍亞格;;基于語義分析的查詢擴(kuò)展方法[J];計(jì)算機(jī)工程;2011年16期
3 黃名選;朱家安;陳燕紅;;面向查詢擴(kuò)展的詞間正負(fù)關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年26期
4 張永興;孫四明;張峰;;基于本體的信息檢索系統(tǒng)研究[J];微計(jì)算機(jī)信息;2011年07期
5 黃名選;朱家安;馮平;;基于正負(fù)關(guān)聯(lián)規(guī)則融合的信息檢索模型[J];情報(bào)理論與實(shí)踐;2011年07期
6 蔡娟;;基于SEP4020的多路語音處理算法的實(shí)現(xiàn)[J];軟件導(dǎo)刊;2011年07期
7 劉亮;秦小麟;戴華;楊豐;;基于環(huán)扇區(qū)的無線傳感器網(wǎng)絡(luò)K近鄰查詢處理算法[J];小型微型計(jì)算機(jī)系統(tǒng);2011年08期
8 張蔚;王洪強(qiáng);;使用區(qū)間路徑處理XML查詢[J];信息技術(shù);2011年06期
9 韓勇豪;王少云;;一種NAND Flash動(dòng)態(tài)壞塊管理算法的設(shè)計(jì)與實(shí)現(xiàn)[J];信息化研究;2011年03期
10 徐從安;何友;簡濤;孫偉超;;空域CFAR處理方法綜述[J];海軍航空工程學(xué)院學(xué)報(bào);2011年04期
相關(guān)會(huì)議論文 前10條
1 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴(kuò)展的數(shù)字檔案檢索策略[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
2 張志強(qiáng);孟慶海;謝曉芹;;個(gè)性化的社會(huì)標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
3 陳憶群;曹瑾音;印鑒;;查詢擴(kuò)展樹:關(guān)系數(shù)據(jù)庫中的文本檢索[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
4 馬云龍;林鴻飛;;基于權(quán)重標(biāo)準(zhǔn)化SimRank方法的查詢擴(kuò)展技術(shù)研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
5 周斌;劉茂福;陳建勛;;IR4QA系統(tǒng)中基于維基百科的查詢擴(kuò)展[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
6 鐘敏娟;萬常選;;基于偽反饋的XML查詢擴(kuò)展[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
7 黃名選;;基于正負(fù)關(guān)聯(lián)規(guī)則挖掘的局部反饋查詢擴(kuò)展[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
8 周軍鋒;李義國;郭景峰;;面向PSTP查詢的高效處理算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
9 邵兵;關(guān)毅;王強(qiáng);王曉龍;任瑞春;;基于上下文平均互信息的問句查詢擴(kuò)展模型[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
10 李金泉;陳善本;吳林;;一種用于弧焊機(jī)器人視覺導(dǎo)引的圖像底層處理算法[A];第十次全國焊接會(huì)議論文集(第2冊)[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 南方;DVD火爆國際芯片巨頭爭春[N];中國企業(yè)報(bào);2003年
2 彭;媒體處理“軟”轉(zhuǎn)移[N];中國計(jì)算機(jī)報(bào);2005年
3 清華紫光數(shù)碼影像事業(yè)部總經(jīng)理 劉洪;貼近應(yīng)用 高端低價(jià)[N];中國計(jì)算機(jī)報(bào);2004年
4 本報(bào)通訊員 劉磊;觀天測云 努力不止[N];中國氣象報(bào);2011年
5 記者 潘俊杰 通訊員 黃幸媛;2007年雷電軌道業(yè)務(wù)建設(shè)項(xiàng)目啟動(dòng)[N];中國氣象報(bào);2007年
6 德州儀器首席科學(xué)家 方進(jìn);數(shù)字視頻的未來[N];計(jì)算機(jī)世界;2006年
7 ;普天NodeB:實(shí)力源自創(chuàng)新[N];通信產(chǎn)業(yè)報(bào);2006年
8 凡妮;IBM BladeCenter QS22將高性能計(jì)算帶到實(shí)驗(yàn)室之外[N];電腦商報(bào);2008年
9 宋西林;星光中國芯走出中國路[N];中國企業(yè)報(bào);2005年
10 魏景云 張海東 蔡淑英;風(fēng)云三號成像光譜儀預(yù)研通過評估[N];中國氣象報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 仲兆滿;事件本體及其在查詢擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年
2 張毅波;史文結(jié)構(gòu)化信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國科學(xué)院研究生院(軟件研究所);2001年
3 王一川;基于內(nèi)容的海量文本探索式查詢導(dǎo)引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年
4 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
5 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
6 朱鯤鵬;基于Web日志挖掘的智能信息檢索研究[D];哈爾濱工業(yè)大學(xué);2009年
7 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
8 劉春辰;基于本體的企業(yè)搜索優(yōu)化技術(shù)研究[D];吉林大學(xué);2012年
9 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
10 蒲強(qiáng);基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 賈淑芳;基于用戶日志聚類的查詢擴(kuò)展[D];北京郵電大學(xué);2010年
2 王水利;基于互信息的語義查詢擴(kuò)展技術(shù)研究[D];河南科技大學(xué);2011年
3 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
4 崔琰;基于用戶興趣及術(shù)語關(guān)系的查詢擴(kuò)展方法[D];河北大學(xué);2011年
5 方勇;基于語義的信息檢索方法研究與應(yīng)用[D];浙江大學(xué);2010年
6 劉清江;同義詞在文本特征提取與查詢擴(kuò)展中的應(yīng)用[D];河北大學(xué);2010年
7 于水;專利術(shù)語知識庫的建立與應(yīng)用[D];沈陽航空工業(yè)學(xué)院;2010年
8 范丹;Web檢索中的查詢擴(kuò)展及結(jié)果聚類技術(shù)研究[D];遼寧師范大學(xué);2010年
9 周劍烽;基于語義本體的信息檢索方法的研究[D];杭州電子科技大學(xué);2010年
10 趙春輝;基于關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展[D];河南大學(xué);2011年
,本文編號:1811495
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1811495.html