基于搜索引擎的雙語混合網(wǎng)頁識(shí)別新方法
[Abstract]:This paper presents a new method of obtaining a bilingual web page from a result web page returned from a search engine, which is divided into two tasks. The first task is to automatically detect and collect data records in the results web page returned by the search engine. This step identifies a useful record summary by a method of clustering and provides an effective feature for the validation and acquisition of the next task, the high-quality, bilingual hybrid web page. In this paper, the verification of the bilingual mixed web page is regarded as a valid classification problem, and the method does not depend on the specific domain and the search engine. Based on the results of the two 516 retrieval results collected from the search engine and identified by the manual, the accuracy rate of 81.3% and the recall rate of 94.3% were obtained in this paper.
【作者單位】: 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目資助(61003152;60970057;60873105)
【分類號(hào)】:TP393.092
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陶秀鳳,唐詩忠,周鳴爭(zhēng);基于支持向量機(jī)的軟測(cè)量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年02期
2 徐正光,王淑盛,劉冀偉,王志良,史立峰;基于主成分分析的核Fisher判別方法在油水識(shí)別中的應(yīng)用[J];北京科技大學(xué)學(xué)報(bào);2005年01期
3 吳德會(huì);王曉紅;;基于SVM的傳感器動(dòng)態(tài)模型辯識(shí)方法[J];傳感技術(shù)學(xué)報(bào);2006年03期
4 常玉清,王福利,王小剛,呂哲;基于支持向量機(jī)的生物發(fā)酵過程軟測(cè)量建模[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年11期
5 呂干云;程浩忠;鄭金菊;汪曉東;;基于S變換和多級(jí)SVM的電能質(zhì)量擾動(dòng)檢測(cè)識(shí)別[J];電工技術(shù)學(xué)報(bào);2006年01期
6 宇纓;;支持向量機(jī)及其在自然語言處理中的應(yīng)用[J];東莞理工學(xué)院學(xué)報(bào);2007年01期
7 李亞偉;陳守煜;韓小軍;;基于支持向量機(jī)SVR的黃河凌汛預(yù)報(bào)方法[J];大連理工大學(xué)學(xué)報(bào);2006年02期
8 陶亮,莊鎮(zhèn)泉;基于小波分解和支持向量機(jī)的準(zhǔn)正面人臉識(shí)別方法[J];電路與系統(tǒng)學(xué)報(bào);2003年06期
9 呂干云,程浩忠,董立新,翟海保;基于多級(jí)支持向量機(jī)分類器的電力變壓器故障識(shí)別[J];電力系統(tǒng)及其自動(dòng)化學(xué)報(bào);2005年01期
10 潘峰,程浩忠,楊鏡非,張澄,潘震東;基于支持向量機(jī)的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)[J];電網(wǎng)技術(shù);2004年21期
相關(guān)會(huì)議論文 前10條
1 LI Yawei~a CHEN Shouyu~a XU Dawei~b a School of Civil and Hydraulic Engineering; b 21~(st) Century Development Research Center Dalian University of Technology,Dalian 116024,China;The Support Vector Machine Technique for Concrete Adherence Strength Prediction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
2 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;A Wavelet Kernel for Support Vector Machine Based on Frame Theory[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
3 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;Support vector machines for multi-component gases classification with wavelet features extraction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年
4 Hirotaka Nakayama;Yeboon Yun;;REGRESSION BY SUPPORT VECTOR MACHINES AND ITS APPLICATIONS TO ENGINEERING DESIGN[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
5 Yeboon Yun;Hirotaka Nakayama;Min Yoon;;MULTI-OBJECTIVE OPTIMIZATION BASED ON ASPIRATION LEVELS AND APPROXIMATION OF PARETO FRONTIER[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
6 SUN Jin-wen, YANG Jian-wu, LU Bin, XIAO Jian-guo~+ National Key Laboratory for Text Processing. Institute of Computer Science and Technology. Peking University, Beijing 100871, China;Incremental Training for SVM-Based Classification with Keyword Adjusting[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
7 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒計(jì)算理論國際論壇(2006)論文集[C];2006年
8 Yinshan Jia , Chuanying Jia, Hongwei Qi School of Information Technology, Liaoning University of Petroleum and Chemical Technology, Fushun 113001, China Dalian Maritime University, Dalian 116026, China Fushun Ethylene Chemical Co. Ltd., Fushun 113004, China;Application of Weighted Support Vector Machines to Network Intrusion Detection[A];第四屆電子商務(wù)國際會(huì)議論文集(Ⅱ)[C];2004年
9 Jia Yinshan1,2, Jia Chuanying2, Ma Heng2 (1.School of Information Technology, Liaoning University of Petroleum and Chemical Technology, Fushun, China 113001; 2.Dalian Maritime University, Dalian, China 116026);Auto-Weighted Support Vector Machines for Training Sets with Multi-Duplicate Samples[A];2004 7~(th) International Conference on Signal Processing Proceedings[C];2004年
10 Deng Haojiang, Du Limin, Wan Hongjie (SITR, Institute of Acoustics, Chinese Academy of Science, Beijing China 100080);Combination of likelihood scores using linear and SVM approaches for text-independent speaker verification[A];2004 7~(th) International Conference on Signal Processing Proceedings[C];2004年
相關(guān)博士學(xué)位論文 前10條
1 陸陽;二進(jìn)神經(jīng)網(wǎng)絡(luò)規(guī)則提取方法研究[D];合肥工業(yè)大學(xué);2002年
2 葉俊勇;人臉檢測(cè)與識(shí)別方法研究[D];重慶大學(xué);2002年
3 馬笑瀟;智能故障診斷中的機(jī)器學(xué)習(xí)新理論及其應(yīng)用研究[D];重慶大學(xué);2002年
4 夏建濤;基于機(jī)器學(xué)習(xí)的高維多光譜數(shù)據(jù)分類[D];西北工業(yè)大學(xué);2002年
5 王亮申;圖像特征提取及基于內(nèi)容圖像數(shù)據(jù)庫檢索理論和方法研究[D];大連理工大學(xué);2002年
6 張燕平;基于商空間的構(gòu)造性數(shù)據(jù)挖掘方法及應(yīng)用[D];安徽大學(xué);2003年
7 范昕煒;支持向量機(jī)算法的研究及其應(yīng)用[D];浙江大學(xué);2003年
8 吳濤;核函數(shù)的性質(zhì)、方法及其在障礙檢測(cè)中的應(yīng)用[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2003年
9 庾農(nóng);基于形態(tài)學(xué)理論的目標(biāo)檢測(cè)技術(shù)[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2000年
10 張莉;支撐矢量機(jī)與核方法研究[D];西安電子科技大學(xué);2002年
相關(guān)碩士學(xué)位論文 前10條
1 姜紹君;與文本有關(guān)的說話人識(shí)別方法的研究[D];大連理工大學(xué);2001年
2 忻棟;支持向量機(jī)算法的研究及在說話人識(shí)別上的應(yīng)用[D];浙江大學(xué);2002年
3 劉學(xué)軍;鍵盤用戶身份驗(yàn)真與加權(quán)主分量分類器[D];南京航空航天大學(xué);2002年
4 馮洪海;基于粗糙集和支持向量機(jī)的多值分類算法[D];河北農(nóng)業(yè)大學(xué);2002年
5 姬水旺;強(qiáng)噪聲和類間重疊數(shù)據(jù)下支持向量機(jī)學(xué)習(xí)的研究[D];武漢科技大學(xué);2002年
6 李春光;自適應(yīng)信號(hào)處理的神經(jīng)網(wǎng)絡(luò)方法[D];電子科技大學(xué);2002年
7 闞忠良;數(shù)字圖書館中基于結(jié)構(gòu)和內(nèi)容的文本信息檢索技術(shù)的研究[D];黑龍江大學(xué);2002年
8 劉占平;并行數(shù)字圖書館系統(tǒng)中人機(jī)交互系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];黑龍江大學(xué);2002年
9 顧先睿;并行數(shù)字圖書館系統(tǒng)中數(shù)據(jù)的分布、加載和維護(hù)[D];黑龍江大學(xué);2002年
10 任美睿;數(shù)字圖書館中詞頻提取和自動(dòng)文本分類方法的研究[D];黑龍江大學(xué);2002年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 肖繼海;崔曉紅;桑莉君;;基于Web挖掘的個(gè)性化推薦模型[J];福建電腦;2011年05期
2 東興;賈宇波;王義;范紅丹;;Web挖掘技術(shù)在網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化中的應(yīng)用研究[J];工業(yè)控制計(jì)算機(jī);2011年08期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前8條
1 易虹;許德剛;;Web數(shù)據(jù)挖掘的研究與應(yīng)用[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
2 吳珊;楊樺;;基于日志挖掘的Web預(yù)取模型[A];2006年電氣工程教育專業(yè)委員會(huì)年會(huì)論文集[C];2006年
3 習(xí)慧丹;;Web日志挖掘探析[A];第三屆全國軟件測(cè)試會(huì)議與移動(dòng)計(jì)算、柵格、智能化高級(jí)論壇論文集[C];2009年
4 王磊;王豐輝;鄭康鋒;楊義先;;基于Web挖掘技術(shù)的漏洞收集系統(tǒng)研究與設(shè)計(jì)[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)——通信與信息技術(shù)會(huì)議論文集(下)[C];2006年
5 袁冠;夏士雄;張磊;李月娥;肖經(jīng)驗(yàn);;基于興趣度的Web用戶聚類方法[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年
6 鐘福金;穆斌;;語義Web挖掘研究[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
7 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
8 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
相關(guān)博士學(xué)位論文 前3條
1 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
2 阮備軍;Web使用挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2004年
3 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 易高翔;Web文本挖掘研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2004年
2 馬征;基于本體的Web頁面分類挖掘[D];中南大學(xué);2004年
3 謝振亮;基于WEB挖掘技術(shù)的網(wǎng)頁自動(dòng)分類和聚類的研究[D];天津大學(xué);2004年
4 張承明;基于Web的數(shù)據(jù)挖掘研究[D];山東科技大學(xué);2003年
5 段曉峰;網(wǎng)站日志的數(shù)據(jù)挖掘[D];重慶大學(xué);2003年
6 胡小睿;基于Web挖掘的搜索引擎技術(shù)研究[D];武漢大學(xué);2005年
7 劉巖;基于Web的文本挖掘技術(shù)的研究[D];哈爾濱工程大學(xué);2004年
8 陳敏;基于Web使用挖掘的知識(shí)發(fā)現(xiàn)研究[D];合肥工業(yè)大學(xué);2005年
9 竇赫男;序列模式挖掘在網(wǎng)站可用性分析研究上的應(yīng)用[D];大連海事大學(xué);2006年
10 王浩川;Web挖掘與個(gè)性化信息服務(wù)[D];鄭州大學(xué);2003年
,本文編號(hào):2430068
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2430068.html