一種編輯距離算法及其在網(wǎng)頁搜索中的應用
[Abstract]:In view of the fact that the traditional method can not deal well with the problem of the correlation between the short domain and the user query, an improved edit-distance sorting algorithm is proposed. The user query based on words and the short web page domain are transformed into two strings by matching encoding, and the similarity between the two strings is calculated by using the improved editing distance. Because the location, order and distance of query words are introduced between the user query and the short web page field to be compared, and the important information of query word modification relation is also introduced. Therefore, the similarity between encoding strings can measure the correlation between the corresponding query and the domain of a short web page. The experiments of large scale real search engine show that compared with the traditional correlation sorting algorithm, this algorithm can significantly improve the performance of short page domain correlation sorting in web search. It is especially suitable for comparing the correlation between a short domain and a user query.
【作者單位】: 西安交通大學電子與信息工程學院;
【基金】:國家自然科學基金資助項目(60673087)
【分類號】:TP391.41
【相似文獻】
相關期刊論文 前10條
1 薛曄偉;沈鈞毅;張云;;一種編輯距離算法及其在網(wǎng)頁搜索中的應用[J];西安交通大學學報;2008年12期
2 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計算方法[J];計算機應用研究;2010年12期
3 薛曄偉;沈鈞毅;張云;鮑軍鵬;;網(wǎng)頁特征獲取方法及其在網(wǎng)頁搜索中的應用(英文)[J];Journal of Southeast University(English Edition);2008年03期
4 石東華,杜曉榮,劉曉平;XML在網(wǎng)站頁面搜索和生成中的應用[J];合肥工業(yè)大學學報(自然科學版);2003年01期
5 高松;;串起珍珠的鏈條——記騰訊SOSO團隊[J];程序員;2010年06期
6 廖明濤;張德運;李金庫;;基于網(wǎng)絡處理器的高效中英文多模式匹配算法[J];計算機工程;2007年05期
7 王秀華;劉愛霞;;字符串匹配器的設計與實現(xiàn)[J];黑龍江紡織;2008年02期
8 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進的編輯距離算法及其在數(shù)據(jù)處理中的應用[J];計算機應用;2009年02期
9 ;新華社和中移動聯(lián)手開通盤古搜索[J];今傳媒;2011年03期
10 賀川斌,周明全,王長纓;基于像素字符串比較的圖像快速匹配算法[J];微機發(fā)展;2005年01期
相關會議論文 前10條
1 周學廣;張煥國;;一種柔性中文字符串匹配算法[A];第二十七屆中國控制會議論文集[C];2008年
2 王小鳳;周明全;耿國華;郭紅波;;一種基于字符距離的特征字符串近似匹配算法[A];圖像圖形技術(shù)與應用進展——第三屆圖像圖形技術(shù)與應用學術(shù)會議論文集[C];2008年
3 王英偉;薛林福;潘保芝;;字符串匹配在測井沉積相分析中的應用[A];中國地球物理學會第二十三屆年會論文集[C];2007年
4 張鑫;程學旗;譚建龍;王映;;一種快速的多模式串匹配算法及其在實時漢語文本分類系統(tǒng)中的應用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
5 趙國毅;楊曉春;王斌;;面向相似數(shù)據(jù)的無損壓縮技術(shù)[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集A輯二[C];2010年
6 王斌;郭慶;李中博;楊曉春;;支持塊編輯距離的索引結(jié)構(gòu)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
7 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學生物醫(yī)學工程學術(shù)論文集(第2卷)[C];2005年
8 王潔;宋柔;;HSK動態(tài)作文語料庫偏誤標注方法研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
9 楊洋;楊新武;李玉鑒;;一種基于特征串比較的自動眉毛識別方法[A];圖像圖形技術(shù)研究與應用2009——第四屆圖像圖形技術(shù)與應用學術(shù)會議論文集[C];2009年
10 運正佳;李軼男;楊曉春;;支持帶有通配符的字符串匹配算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集A輯二[C];2010年
相關重要報紙文章 前10條
1 陳軍梅;新浪聯(lián)手谷歌 共拓競價廣告[N];中國質(zhì)量報;2007年
2 本報記者 周志軍;谷歌“涉黃”,錯了就是錯了![N];中國文化報;2009年
3 本報記者 張磊;搜索 需要更多社區(qū)平臺[N];中國消費者報;2006年
4 馬曉芳;Google與3G門戶聯(lián)手推出YY搜索[N];第一財經(jīng)日報;2007年
5 李永勝;在中文網(wǎng)頁搜索質(zhì)量上 Google險勝百度[N];中國計算機報;2007年
6 張力邋王磊;山水實景演出:點亮夜色的一種可能性[N];中國旅游報;2007年
7 本報記者 陳煜儒;搜索網(wǎng)站“過失”違法須界定[N];法制日報;2009年
8 李曉艷;總部力挺李開復 谷歌中國第三步[N];21世紀經(jīng)濟報道;2007年
9 何苦;谷歌中國不走尋常路:四年竟有五個“門”[N];證券日報;2009年
10 趙壘;中文搜索引擎再點硝煙[N];中華工商時報;2006年
相關博士學位論文 前10條
1 王潔;漢語中介語偏誤的計算機處理方法研究[D];北京語言大學;2008年
2 黃建;入侵檢測系統(tǒng)中字符串匹配算法與實現(xiàn)[D];華中科技大學;2008年
3 戴東波;序列數(shù)據(jù)的相似性查詢研究[D];復旦大學;2009年
4 李奇越;網(wǎng)絡內(nèi)容分析中基于硬件的字符串匹配算法的研究[D];中國科學技術(shù)大學;2008年
5 劉衛(wèi)紅;垃圾郵件檢測與過濾關鍵技術(shù)研究[D];華南理工大學;2010年
6 樂小虬;非結(jié)構(gòu)化網(wǎng)絡空間信息智能搜索與服務研究[D];中國科學院研究生院(遙感應用研究所);2006年
7 李云照;高速網(wǎng)數(shù)據(jù)過濾若干關鍵技術(shù)研究[D];國防科學技術(shù)大學;2009年
8 萬國根;面向內(nèi)容的網(wǎng)絡安全監(jiān)控模型及其關鍵技術(shù)研究[D];電子科技大學;2005年
9 周,
本文編號:2158581
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2158581.html