基于SVM預(yù)測的金融主題爬蟲
本文選題:主題爬蟲 + 分類器 ; 參考:《四川大學(xué)學(xué)報(自然科學(xué)版)》2010年03期
【摘要】:隨著Internet上信息的爆炸,利用通用搜索引擎檢索用戶相關(guān)的信息變得越來越困難,而主題爬蟲成為WEB上檢索主題相關(guān)信息的重要工具.目前大部分基于分類器預(yù)測的主題爬蟲的訓(xùn)練數(shù)據(jù)是不同類別網(wǎng)頁的內(nèi)容,但是在實際預(yù)測過程只能根據(jù)父網(wǎng)頁中的一些鏈接信息進行預(yù)測,所以造成主題爬蟲的預(yù)測的準確率較低.本文使用SVM分類器對標注了類別的URL以及上下文和錨文本進行訓(xùn)練,并分別使用了DF和信息增益兩種不同的特征選擇方法進行特征篩選,對影響分類器的各種因素進行了實驗對比,并對分類器進行了在線的實驗.實驗證明這種方法在實際預(yù)測過程中效率很高.
[Abstract]:With the explosion of information on Internet, it is becoming more and more difficult to retrieve user related information by using general search engine, and topic crawler has become an important tool for retrieving theme-related information on WEB. At present, most of the training data of topic crawler based on classifier are the content of different kinds of web pages, but in the actual prediction process, only some link information in the parent page can be used to predict. Therefore, the prediction accuracy of the subject reptiles is low. In this paper, SVM classifier is used to train URL, context and anchor text, and two different feature selection methods, DF and information gain, are used for feature selection. The factors affecting the classifier are compared, and the online experiment of classifier is carried out. Experiments show that this method is very efficient in the process of actual prediction.
【作者單位】: 四川大學(xué)計算機學(xué)院;
【基金】:四川省科技廳公益性研究計劃項目(2008SZ0049)
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 徐丹;徐明;左欣;;集成SVM在微陣列數(shù)據(jù)分析中的應(yīng)用[J];計算機與現(xiàn)代化;2011年05期
2 接標,劉冠曉,馮喬生;統(tǒng)計模式識別的研究[J];云南師范大學(xué)學(xué)報(自然科學(xué)版);2005年06期
3 黃金杰;常英麗;李陽鋒;;基于均勻設(shè)計的特征選擇方法[J];哈爾濱理工大學(xué)學(xué)報;2008年01期
4 簡清明;曾黃麟;葉曉彤;;粗糙集特征選擇和支持向量機在入侵檢測系統(tǒng)中的應(yīng)用[J];四川理工學(xué)院學(xué)報(自然科學(xué)版);2009年05期
5 郭璇;楊曉元;;一種綜合使用支持向量機和遺傳算法的隱藏圖像檢測方法[J];武警工程學(xué)院學(xué)報;2009年04期
6 潘崇;朱紅斌;;基于自適應(yīng)特征選擇和SVM的圖像分類的研究[J];計算機應(yīng)用與軟件;2010年01期
7 趙倩,胡越黎,曹家麟;皮膚顯微圖像自動識別系統(tǒng)的研究[J];計算機工程與應(yīng)用;2005年24期
8 任江濤;趙少東;許盛燦;印鑒;;基于二進制PSO算法的特征選擇及SVM參數(shù)同步優(yōu)化[J];計算機科學(xué);2007年06期
9 吳建斌;李太全;田茂;;改進的遺傳算法在白細胞識別中的應(yīng)用研究[J];計算機工程與應(yīng)用;2007年27期
10 張元;陳亮;王文種;王軍戰(zhàn);;遙感圖像土地覆蓋分類中多源特征數(shù)據(jù)選擇研究[J];測繪科學(xué);2009年02期
相關(guān)會議論文 前10條
1 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學(xué)會第七屆學(xué)術(shù)交流會論文集(上卷)[C];2004年
2 李占潮;陳超;周喜斌;鄒小勇;;基于遺傳算法和支持向量機預(yù)測蛋白質(zhì)結(jié)構(gòu)類[A];第九屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2007年
3 肖惠玲;曾翎;黃,;張琳;王昱清;楊勤;陳華富;;支持向量機探測腦功能活動[A];中國生物醫(yī)學(xué)工程進展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集(下冊)[C];2007年
4 王浩暢;趙鐵軍;劉延力;于浩;;生物醫(yī)學(xué)文本中命名實體識別的智能化方法[A];2006年首屆ICT大會信息、知識、智能及其轉(zhuǎn)換理論第一次高峰論壇會議論文集[C];2006年
5 張國榮;;基于SVM分類算法的電力變壓器故障診斷[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(2)[C];2008年
6 王穎;毋立芳;關(guān)媛;王涓涓;;基于LBP的SVM人臉姿勢估計方法[A];第十三屆全國信號處理學(xué)術(shù)年會(CCSP-2007)論文集[C];2007年
7 龔妙昆;萬福永;許建強;袁震東;;心電圖小波壓縮特征提取及SVM分類分析[A];2005中國控制與決策學(xué)術(shù)年會論文集(下)[C];2005年
8 程國建;蔡磊;潘華賢;;核向量機在大規(guī)模機器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國青年信息與管理學(xué)者大會論文集[C];2009年
9 李燁;蔡云澤;李遠貴;張強;;基于屬性約簡與依賴度分析改進支持向量機性能[A];第二十三屆中國控制會議論文集(下冊)[C];2004年
10 付煥煥;李俊;張潔;;入侵檢測中機器學(xué)習(xí)算法的集成[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
相關(guān)重要報紙文章 前10條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
2 周曉娟;TD已過分水嶺[N];通信產(chǎn)業(yè)報;2008年
3 記者 姜曉凌 見習(xí)記者 王毅俊;原來,,科技也能如此美麗[N];上?萍紙;2007年
4 中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所 李建平;保護地球之腎 遙感體檢濕地健康[N];中國水利報;2008年
5 CPW 張戈;Aperto PacketMAX系列可同時服務(wù)2000個用戶[N];電腦商報;2005年
6 天相投顧 聞群邋王聃聃;選基金需考慮風(fēng)險承受力[N];中國證券報;2007年
7 孫志偉;劉剛檢查城防林建設(shè)[N];齊齊哈爾日報;2008年
8 鄭衛(wèi)東;高產(chǎn)鵝選種方法和標準[N];中國畜牧獸醫(yī)報;2007年
9 課題主持人 李心丹 課題協(xié)調(diào)人 上海證券交易所 施東暉 傅浩 課題研究員 宋素榮 查曉磊 賓紅輝 張許宏 郭靜靜 黃雋 南京大學(xué)工程管理學(xué)院;內(nèi)幕交易與市場操縱的行為動機與判別監(jiān)管研究[N];中國證券報;2007年
10 海通證券 婁靜邋吳先興;把握風(fēng)險收益特征選擇最適合自己的基金[N];上海證券報;2007年
相關(guān)博士學(xué)位論文 前10條
1 燕忠;基于蟻群優(yōu)化算法的若干問題的研究[D];東南大學(xué);2005年
2 張穎;基于群集智能模式識別方法的研究[D];大連理工大學(xué);2008年
3 曹葵康;支持向量機加速方法及應(yīng)用研究[D];浙江大學(xué);2010年
4 任東;基于支持向量機的植物病害識別研究[D];吉林大學(xué);2007年
5 陳萬海;基于支持向量機的超譜圖像分類技術(shù)研究[D];哈爾濱工程大學(xué);2008年
6 李忠偉;支持向量機學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2006年
7 張永;基于模糊支持向量機的多類分類算法研究[D];大連理工大學(xué);2008年
8 熊文;基于群智的特征選擇、分類與聚類挖掘的研究[D];北京郵電大學(xué);2010年
9 呂鐵軍;通信信號調(diào)制識別研究[D];電子科技大學(xué);2000年
10 田江;基于支持向量機的孤立點檢測方法研究[D];大連理工大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 張洪軍;基于SVM的電子郵件分類系統(tǒng)研究[D];山東師范大學(xué);2007年
2 宋羚;基于多目標遺傳算法和SVM的特征選擇方法[D];華中科技大學(xué);2007年
3 高永崗;醫(yī)學(xué)圖像的語義標注技術(shù)研究與應(yīng)用[D];西北大學(xué);2009年
4 楊霞;基于SVM和D-S理論的垃圾郵件過濾研究[D];江蘇大學(xué);2008年
5 王燕;語音隱寫分析技術(shù)研究[D];華北電力大學(xué)(河北);2009年
6 詹超;支持向量機在基因表達數(shù)據(jù)分類中的研究[D];武漢理工大學(xué);2006年
7 杜圣東;基于多類支持向量機的文本分類研究[D];重慶大學(xué);2007年
8 付建文;小波域語音隱藏信息檢測方法研究[D];華北電力大學(xué)(河北);2008年
9 馬宏偉;基于SVM的中文文本分類系統(tǒng)的建模與實現(xiàn)[D];大連理工大學(xué);2006年
10 聶小芳;模糊粗糙集與支持向量機在煤與瓦斯突出預(yù)測中的應(yīng)用研究[D];遼寧工程技術(shù)大學(xué);2009年
本文編號:1911929
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1911929.html