天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

一種編輯距離算法及其在網(wǎng)頁(yè)搜索中的應(yīng)用

發(fā)布時(shí)間:2018-08-01 19:17
【摘要】:針對(duì)傳統(tǒng)方法不能很好地處理網(wǎng)頁(yè)中簡(jiǎn)短域與用戶(hù)查詢(xún)之間的相關(guān)性排序問(wèn)題,提出一種基于改進(jìn)的編輯距離排序算法.將以詞為單位的用戶(hù)查詢(xún)和簡(jiǎn)短網(wǎng)頁(yè)域通過(guò)匹配編碼轉(zhuǎn)化為2個(gè)字符串,再利用改進(jìn)的編輯距離計(jì)算2個(gè)字符串之間的相似性.由于在用戶(hù)查詢(xún)與待比較的簡(jiǎn)短網(wǎng)頁(yè)域之間引入了查詢(xún)?cè)~分布的位置、順序和距離等,以及含有查詢(xún)?cè)~修飾關(guān)系的重要信息,所以編碼字符串之間的相似程度可以衡量對(duì)應(yīng)的查詢(xún)與簡(jiǎn)短網(wǎng)頁(yè)域之間的相關(guān)性.經(jīng)大規(guī)模真實(shí)搜索引擎實(shí)驗(yàn)表明,該算法較之傳統(tǒng)的相關(guān)性排序算法,可以顯著地提高網(wǎng)頁(yè)搜索中的簡(jiǎn)短網(wǎng)頁(yè)域相關(guān)性排序性能,尤其適用于簡(jiǎn)短域與用戶(hù)查詢(xún)之間的相關(guān)性比較.
[Abstract]:In view of the fact that the traditional method can not deal well with the problem of the correlation between the short domain and the user query, an improved edit-distance sorting algorithm is proposed. The user query based on words and the short web page domain are transformed into two strings by matching encoding, and the similarity between the two strings is calculated by using the improved editing distance. Because the location, order and distance of query words are introduced between the user query and the short web page field to be compared, and the important information of query word modification relation is also introduced. Therefore, the similarity between encoding strings can measure the correlation between the corresponding query and the domain of a short web page. The experiments of large scale real search engine show that compared with the traditional correlation sorting algorithm, this algorithm can significantly improve the performance of short page domain correlation sorting in web search. It is especially suitable for comparing the correlation between a short domain and a user query.
【作者單位】: 西安交通大學(xué)電子與信息工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(60673087)
【分類(lèi)號(hào)】:TP391.41

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 薛曄偉;沈鈞毅;張?jiān)?;一種編輯距離算法及其在網(wǎng)頁(yè)搜索中的應(yīng)用[J];西安交通大學(xué)學(xué)報(bào);2008年12期

2 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2010年12期

3 薛曄偉;沈鈞毅;張?jiān)?鮑軍鵬;;網(wǎng)頁(yè)特征獲取方法及其在網(wǎng)頁(yè)搜索中的應(yīng)用(英文)[J];Journal of Southeast University(English Edition);2008年03期

4 石東華,杜曉榮,劉曉平;XML在網(wǎng)站頁(yè)面搜索和生成中的應(yīng)用[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

5 高松;;串起珍珠的鏈條——記騰訊SOSO團(tuán)隊(duì)[J];程序員;2010年06期

6 廖明濤;張德運(yùn);李金庫(kù);;基于網(wǎng)絡(luò)處理器的高效中英文多模式匹配算法[J];計(jì)算機(jī)工程;2007年05期

7 王秀華;劉愛(ài)霞;;字符串匹配器的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江紡織;2008年02期

8 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2009年02期

9 ;新華社和中移動(dòng)聯(lián)手開(kāi)通盤(pán)古搜索[J];今傳媒;2011年03期

10 賀川斌,周明全,王長(zhǎng)纓;基于像素字符串比較的圖像快速匹配算法[J];微機(jī)發(fā)展;2005年01期

相關(guān)會(huì)議論文 前10條

1 周學(xué)廣;張煥國(guó);;一種柔性中文字符串匹配算法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

2 王小鳳;周明全;耿國(guó)華;郭紅波;;一種基于字符距離的特征字符串近似匹配算法[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

3 王英偉;薛林福;潘保芝;;字符串匹配在測(cè)井沉積相分析中的應(yīng)用[A];中國(guó)地球物理學(xué)會(huì)第二十三屆年會(huì)論文集[C];2007年

4 張?chǎng)?程學(xué)旗;譚建龍;王映;;一種快速的多模式串匹配算法及其在實(shí)時(shí)漢語(yǔ)文本分類(lèi)系統(tǒng)中的應(yīng)用[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

5 趙國(guó)毅;楊曉春;王斌;;面向相似數(shù)據(jù)的無(wú)損壓縮技術(shù)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年

6 王斌;郭慶;李中博;楊曉春;;支持塊編輯距離的索引結(jié)構(gòu)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

7 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識(shí)別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年

8 王潔;宋柔;;HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)偏誤標(biāo)注方法研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

9 楊洋;楊新武;李玉鑒;;一種基于特征串比較的自動(dòng)眉毛識(shí)別方法[A];圖像圖形技術(shù)研究與應(yīng)用2009——第四屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年

10 運(yùn)正佳;李軼男;楊曉春;;支持帶有通配符的字符串匹配算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯二[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 陳軍梅;新浪聯(lián)手谷歌 共拓競(jìng)價(jià)廣告[N];中國(guó)質(zhì)量報(bào);2007年

2 本報(bào)記者 周志軍;谷歌“涉黃”,錯(cuò)了就是錯(cuò)了![N];中國(guó)文化報(bào);2009年

3 本報(bào)記者  張磊;搜索 需要更多社區(qū)平臺(tái)[N];中國(guó)消費(fèi)者報(bào);2006年

4 馬曉芳;Google與3G門(mén)戶(hù)聯(lián)手推出YY搜索[N];第一財(cái)經(jīng)日?qǐng)?bào);2007年

5 李永勝;在中文網(wǎng)頁(yè)搜索質(zhì)量上 Google險(xiǎn)勝百度[N];中國(guó)計(jì)算機(jī)報(bào);2007年

6 張力邋王磊;山水實(shí)景演出:點(diǎn)亮夜色的一種可能性[N];中國(guó)旅游報(bào);2007年

7 本報(bào)記者 陳煜儒;搜索網(wǎng)站“過(guò)失”違法須界定[N];法制日?qǐng)?bào);2009年

8 李曉艷;總部力挺李開(kāi)復(fù) 谷歌中國(guó)第三步[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2007年

9 何苦;谷歌中國(guó)不走尋常路:四年竟有五個(gè)“門(mén)”[N];證券日?qǐng)?bào);2009年

10 趙壘;中文搜索引擎再點(diǎn)硝煙[N];中華工商時(shí)報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 王潔;漢語(yǔ)中介語(yǔ)偏誤的計(jì)算機(jī)處理方法研究[D];北京語(yǔ)言大學(xué);2008年

2 黃建;入侵檢測(cè)系統(tǒng)中字符串匹配算法與實(shí)現(xiàn)[D];華中科技大學(xué);2008年

3 戴東波;序列數(shù)據(jù)的相似性查詢(xún)研究[D];復(fù)旦大學(xué);2009年

4 李奇越;網(wǎng)絡(luò)內(nèi)容分析中基于硬件的字符串匹配算法的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

5 劉衛(wèi)紅;垃圾郵件檢測(cè)與過(guò)濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

6 樂(lè)小虬;非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2006年

7 李云照;高速網(wǎng)數(shù)據(jù)過(guò)濾若干關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

8 萬(wàn)國(guó)根;面向內(nèi)容的網(wǎng)絡(luò)安全監(jiān)控模型及其關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2005年

9 周,

本文編號(hào):2158581


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2158581.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)04cf0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com