基于傅立葉變換的網(wǎng)頁去重算法
本文選題:網(wǎng)頁去重 + K-L展開; 參考:《計算機(jī)應(yīng)用》2008年04期
【摘要】:去除重復(fù)網(wǎng)頁可以提高搜索引擎的搜索精度,減少數(shù)據(jù)存儲空間。目前文本去重算法以關(guān)鍵詞去重、語義指紋去重為主,用上述算法進(jìn)行網(wǎng)頁去重時容易發(fā)生誤判。通過對字符關(guān)系矩陣進(jìn)行K-L展開,將每個字符映射成為一個數(shù)值,然后對這個數(shù)值序列做離散傅立葉變換,得到每個網(wǎng)頁的傅立葉系數(shù)向量,通過比較傅立葉系數(shù)向量差異實現(xiàn)對網(wǎng)頁的相似度判斷。實驗結(jié)果表明該方法可對網(wǎng)頁實現(xiàn)較好的去重。
[Abstract]:The removal of repeated web pages can improve the search precision of search engines and reduce the storage space of the data. At present, the text deweighting method is weighted by keywords, semantic fingerprint is heavy, and it is easy to misjudge when using the above algorithm to carry out web pages. By K-L expansion of the character relation matrix, each character is mapped into a numeric value, and then, This numerical sequence is made by discrete Fu Liye transform, and the Fu Liye coefficient vector of each web page is obtained. By comparing the difference of the Fu Liye coefficient vector, the similarity of the web page is judged. The experimental results show that the method can achieve better weight removal for the web pages.
【作者單位】: 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院
【分類號】:TP301.6
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 苑進(jìn),劉雪美,江濤;遙感圖像中多分類問題的樹型RBF神經(jīng)網(wǎng)絡(luò)方法[J];農(nóng)業(yè)工程學(xué)報;2004年05期
2 張根耀,李竹林,趙宗濤;遮擋情況下運動目標(biāo)的跟蹤[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2003年03期
3 張貴,喬春生;應(yīng)用支持向量機(jī)回歸確定巖體強(qiáng)度指標(biāo)[J];北方交通大學(xué)學(xué)報;2004年01期
4 李翠霞,于劍;一種模糊聚類算法歸類的研究[J];北京交通大學(xué)學(xué)報;2005年02期
5 謝紀(jì)剛;裘正定;;非平衡數(shù)據(jù)集Fisher線性判別模型[J];北京交通大學(xué)學(xué)報;2006年05期
6 余鵬,封舉富;基于多分辨率小波和高斯混合模型的紋理圖像分割[J];北京大學(xué)學(xué)報(自然科學(xué)版);2005年03期
7 韓武鵬,陳文楷,劉正耀;模糊小波算法在紡織品瑕點檢測中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2002年01期
8 張虹,陳文楷;一種基于小波矩的圖像識別方法[J];北京工業(yè)大學(xué)學(xué)報;2004年04期
9 蘇惠敏,高劍宏,陳哲;BP網(wǎng)絡(luò)實時圖像自動選取算法研究[J];北京航空航天大學(xué)學(xué)報;2002年02期
10 張吉堂,路宏年;樹分類器在多界面粘接質(zhì)量圖像診斷中的應(yīng)用[J];北京航空航天大學(xué)學(xué)報;2003年08期
相關(guān)會議論文 前10條
1 Xu ZhangSui Lei ZhengWei Mi Dong Liu MeiQuan Yang WenFei Department of Control Engineering,Mechanical Engineering College,Shijiazhuang, 050003 China;Intelligence Recognition of Reconnaissance Objective Based on INN Pattern Recognition[A];Proceedings of the 5th International Symposium on Test and Measurement(Volume 1)[C];2003年
2 張韻;張燕;苗艷華;蒲金霞;;提升小波在筆跡鑒別中的應(yīng)用[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
3 羅仁澤;王汝言;冉瑞生;;二維PCA法策略及證明[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
4 郭鋒;劉麗麗;呂凝;;基于LLE和SVM的人像識別方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
5 蔣琦;莊毅;謝東;;基于SVM分類器的SYN Flood攻擊檢測規(guī)則生成方法的研究[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
6 郭相科;劉進(jìn)忙;曹學(xué)斌;張玉鵬;;子類獨立分量分析在聲目標(biāo)識別中的應(yīng)用[A];中國聲學(xué)學(xué)會2007年青年學(xué)術(shù)會議論文集(上)[C];2007年
7 寇凌岳;艾欣;鄧慧瓊;;基于FCM算法的連鎖故障評價及路徑劃分方法研究[A];第十一屆全國電工數(shù)學(xué)學(xué)術(shù)年會論文集[C];2007年
8 趙偉;李麗娟;;基于數(shù)學(xué)形態(tài)學(xué)的手寫體漢字識別[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 葉政春;林宏基;;基于小波不變矩和SCNN的多姿態(tài)人臉檢測[A];中國儀器儀表學(xué)會第九屆青年學(xué)術(shù)會議論文集[C];2007年
10 毛罕平;徐貴力;李萍萍;;番茄缺素葉片的圖像特征提取和優(yōu)化選擇研究[A];2002農(nóng)業(yè)工程青年科技論壇論文集[C];2002年
相關(guān)博士學(xué)位論文 前10條
1 呂鐵軍;通信信號調(diào)制識別研究[D];電子科技大學(xué);2000年
2 凌杰;公路動態(tài)稱重系統(tǒng)的設(shè)計理論研究[D];長安大學(xué);2001年
3 李劍;局部放電灰度圖象識別特征提取與分形壓縮方法的研究[D];重慶大學(xué);2001年
4 孫濤;基于數(shù)據(jù)融合技術(shù)的兩相流流型辨識與流量測量方法研究[D];浙江大學(xué);2002年
5 郭滿才;群體遺傳變異的信息學(xué)模型研究[D];西北農(nóng)林科技大學(xué);2002年
6 李新;面向神經(jīng)計算的視覺信息處理研究[D];西北工業(yè)大學(xué);2002年
7 鄭江濱;視頻監(jiān)視方法研究[D];西北工業(yè)大學(xué);2002年
8 馬艷;基于小波變換的畸變信道檢測和目標(biāo)特征提取研究[D];西北工業(yè)大學(xué);2002年
9 田景文;地下油藏的仿真與預(yù)測[D];哈爾濱工程大學(xué);2001年
10 王崇文;自動指紋識別方法研究[D];重慶大學(xué);2002年
相關(guān)碩士學(xué)位論文 前10條
1 沈世e,
本文編號:2014253
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2014253.html