天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向分層結(jié)構(gòu)的網(wǎng)頁分類與抓取

發(fā)布時間:2018-08-29 14:42
【摘要】:傳統(tǒng)網(wǎng)絡(luò)爬蟲為基于關(guān)鍵字檢索的通用搜索引擎服務(wù),無法抓取網(wǎng)頁類別信息,給文本聚類和話題檢測帶來計算效率和準(zhǔn)確度問題。本文提出基于站點分層結(jié)構(gòu)的網(wǎng)頁分類與抽取,通過構(gòu)建虛擬站點層次分類樹并抽取真實站點分層結(jié)構(gòu),設(shè)計并實現(xiàn)了面向分層結(jié)構(gòu)的網(wǎng)頁抓取;對于無分類信息的站點,給出了基于標(biāo)題的網(wǎng)頁分類技術(shù),包括領(lǐng)域知識庫構(gòu)建和基于《知網(wǎng)》的詞語語義相似度計算。實驗結(jié)果表明,該方法具有良好的分類效果。
[Abstract]:The traditional web crawler is a general search engine service based on keyword retrieval, which can not capture the information of Web page category, which brings the problem of computing efficiency and accuracy to text clustering and topic detection. This paper proposes a web page classification and extraction based on site hierarchical structure. By constructing virtual site hierarchical classification tree and extracting real site hierarchical structure, we design and implement the hierarchical structure oriented web crawling. This paper presents the technology of web page classification based on title, including the construction of domain knowledge base and the calculation of semantic similarity of words based on Web. The experimental results show that this method has good classification effect.
【作者單位】: 華南理工大學(xué)軟件學(xué)院;華南理工大學(xué)計算機科學(xué)與工程學(xué)院;
【基金】:廣東省科技計劃基金資助項目(2010B010600017)
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報;2004年01期

2 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(自然科學(xué)版);2001年07期

3 劉衛(wèi)紅;方衛(wèi)東;董守斌;張凌;;基于內(nèi)容與鏈接特征的中文垃圾網(wǎng)頁分類[J];微計算機信息;2010年09期

相關(guān)碩士學(xué)位論文 前1條

1 董靜;中文網(wǎng)頁形式自動分類[D];大連理工大學(xué);2006年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李玉擰;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年09期

2 楊勇濤;;文本自動摘要提取算法[J];成都大學(xué)學(xué)報(自然科學(xué)版);2009年02期

3 袁曉峰;;一種基于主題的Web文本聚類算法[J];成都大學(xué)學(xué)報(自然科學(xué)版);2010年03期

4 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應(yīng)用[J];長春理工大學(xué)學(xué)報(自然科學(xué)版);2010年01期

5 呂佳;;基于改進(jìn)分類模型的文本分類系統(tǒng)實現(xiàn)[J];重慶師范大學(xué)學(xué)報(自然科學(xué)版);2009年02期

6 李小平;任恩恩;;異構(gòu)數(shù)據(jù)庫相似語義屬性聚類過程研究[J];鐵道科學(xué)與工程學(xué)報;2012年02期

7 李家兵;;基于交叉覆蓋算法的文本分類研究[J];滁州學(xué)院學(xué)報;2008年05期

8 李艷玲;戴冠中;覃森;;快速的文本傾向性分類方法(英文)[J];電子科技大學(xué)學(xué)報;2007年06期

9 趙俊杰;盛劍鋒;陶新民;;一種基于特征加權(quán)的KNN文本分類算法[J];電腦學(xué)習(xí);2010年02期

10 孫鐵利;張妍;李曉微;;文本挖掘中特征降維方法比較研究[J];電腦知識與技術(shù);2008年02期

相關(guān)會議論文 前10條

1 韓露;余正濤;鄧錦輝;章程;毛存禮;郭劍毅;;領(lǐng)域知識關(guān)系對領(lǐng)域文本分類的影響[A];第二十七屆中國控制會議論文集[C];2008年

2 張仰森;黃改娟;蘇文杰;;基于隱最大熵原理的漢語詞義消歧方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對文本分類效果的增強[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年

4 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國控制會議論文集(下冊)[C];2005年

5 朱祥玉;侯德文;陳希;;基于雙重評估函數(shù)的文本特征提取方法[A];山東省計算機學(xué)會2005年信息技術(shù)與信息化研討會論文集(二)[C];2005年

6 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

7 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年

8 門洪;武玉杰;李小英;高艷春;;基于支持向量機的分類算法研究[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(3)[C];2008年

9 郎加云;胡學(xué)鋼;;電子郵件內(nèi)容過濾的相關(guān)特征研究[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

10 王秀娟;鄭康鋒;楊星海;;線性鑒別分析在中文文本分類中的應(yīng)用[A];2005通信理論與技術(shù)新進(jìn)展——第十屆全國青年通信學(xué)術(shù)會議論文集[C];2005年

相關(guān)博士學(xué)位論文 前10條

1 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年

2 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年

3 羅芳;意見挖掘中若干關(guān)鍵問題研究[D];武漢理工大學(xué);2011年

4 徐建鎖;知識管理和文本挖掘的若干問題研究[D];天津大學(xué);2004年

5 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年

6 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年

7 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

8 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年

9 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復(fù)研究[D];北京郵電大學(xué);2006年

10 謝學(xué)敏;基于動態(tài)流通語料庫(DCC)的流行語釋義信息自動提取研究[D];北京語言大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

2 汪政;基于支持向量機的改進(jìn)的密度聚類算法研究[D];遼寧工程技術(shù)大學(xué);2010年

3 劉偉麗;基于粒子群算法和支持向量機的中文文本分類研究[D];河南工業(yè)大學(xué);2010年

4 姜倫;模糊聚類算法及其在中文文本聚類中的研究與實現(xiàn)[D];哈爾濱理工大學(xué);2010年

5 韓露;領(lǐng)域知識對領(lǐng)域問答系統(tǒng)答案抽取影響研究[D];昆明理工大學(xué);2008年

6 王林平;基于內(nèi)容的電子郵件過濾系統(tǒng)的研究[D];電子科技大學(xué);2010年

7 李瓊瓊;網(wǎng)絡(luò)文本自動分類器的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2010年

8 張春爐;LSA與SOM相結(jié)合的文本聚類算法應(yīng)用研究[D];解放軍信息工程大學(xué);2010年

9 甄濤;基于社團(tuán)發(fā)現(xiàn)的Blog信息收集原型系統(tǒng)的研究[D];解放軍信息工程大學(xué);2009年

10 周杰;網(wǎng)絡(luò)輿情話題情感傾向性分析技術(shù)研究[D];解放軍信息工程大學(xué);2010年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期

2 朱寰,阮彤,于慶喜;文本分割算法對中文信息過濾影響研究[J];計算機工程與應(yīng)用;2002年13期

3 劉貴龍,宋柔,王慧玲;模糊聚類分析在文本分類中的應(yīng)用[J];計算機工程與應(yīng)用;2003年09期

4 高波,張忠能,查志琴;基于文字鏈接比的網(wǎng)頁分類的研究[J];計算機工程與應(yīng)用;2004年27期

5 蕭嶸;王繼成;張福炎;;支持向量機理論綜述[J];計算機科學(xué);2000年03期

6 劉貴龍,王慧玲,宋柔;矩陣的奇異值分解在文本分類研究中的應(yīng)用[J];計算機工程;2002年12期

7 方鷙飛;林鴻飛;楊志豪;趙晶;;中文文本體裁的自動分類機制[J];中文信息學(xué)報;2006年02期

8 何新貴,彭甫陽;中文文本的關(guān)鍵詞自動抽取和模糊分類[J];中文信息學(xué)報;1999年01期

9 何勁松,鄭浩然,王煦法;從熵均值決策到樣本分布決策[J];軟件學(xué)報;2003年03期

10 董琳;網(wǎng)絡(luò)信息分類組織的發(fā)展趨勢與標(biāo)準(zhǔn)化[J];圖書情報知識;2004年02期

相關(guān)會議論文 前1條

1 王慧玲;宋柔;戴偉長;;漢語文本按語體分類的研究[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉煒;張紅云;熊前興;;基于語義分析的網(wǎng)絡(luò)爬蟲模型的研究[J];科技信息;2008年35期

2 孫玲芳;黎維良;;基于定題爬蟲的網(wǎng)頁分類的多級判定算法[J];科學(xué)技術(shù)與工程;2009年18期

3 張越;曹文君;;基于SVM的大容量網(wǎng)頁的分類研究[J];計算機應(yīng)用與軟件;2008年09期

4 李明杰;;特征抽取方法在網(wǎng)頁分類中的應(yīng)用[J];常熟理工學(xué)院學(xué)報;2005年04期

5 齊宏卓;;淺談網(wǎng)頁模糊歸類的應(yīng)用[J];價值工程;2010年27期

6 鄭力明;易平;;基于HTMLParser信息提取的網(wǎng)絡(luò)爬蟲設(shè)計[J];微計算機信息;2009年15期

7 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計[J];計算機與信息技術(shù);2009年Z2期

8 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期

9 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期

10 韓培培;付博;;基于有限狀態(tài)機的URL解析[J];微處理機;2010年05期

相關(guān)會議論文 前10條

1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網(wǎng)頁分類系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

2 彭濤;左萬利;赫楓齡;張長利;;基于粒子群優(yōu)化算法的網(wǎng)頁分類技術(shù)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年

3 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年

4 郝長伶;董強;;知網(wǎng)知識庫描述語言[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 程靜;邱玉輝;;Web Mining中的網(wǎng)頁分類[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年

6 于楠;朱靖波;陳文亮;;領(lǐng)域知識庫的構(gòu)建機制[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

7 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年

8 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

9 董強;董振東;;基于知網(wǎng)的相關(guān)概念場的構(gòu)建[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

10 萬中英;王明文;廖海波;左家莉;;維數(shù)約簡在網(wǎng)頁分類中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

相關(guān)重要報紙文章 前10條

1 記者 陳磊;中國知網(wǎng)率先推出優(yōu)先數(shù)字出版[N];科技日報;2010年

2 見習(xí)記者 廖小珊;中國知網(wǎng)推出優(yōu)先數(shù)字出版 讀者可多種數(shù)字渠道獲取[N];中國新聞出版報;2010年

3 本報記者 楊楊;投資、創(chuàng)業(yè)兩不誤:李童的“新孩子”恒知網(wǎng)[N];21世紀(jì)經(jīng)濟報道;2011年

4 記者 王秀萍;“中國知網(wǎng)”集約化印刷華北基地在并建成[N];山西經(jīng)濟日報;2010年

5 程曉龍;中國知網(wǎng)聯(lián)姻施普林格[N];中國新聞出版報;2008年

6 陳;思科用無線感知網(wǎng)絡(luò)[N];中國計算機報;2003年

7 李大慶;中國知網(wǎng)與施普林格全面合作[N];科技日報;2008年

8 路華;中華行知網(wǎng)(www.sotrip.com)文化與旅游的契合[N];中國旅游報;2000年

9 高向東;千家數(shù)字圖書館對接“中國知網(wǎng)”數(shù)字出版平臺[N];山西日報;2007年

10 計亞男;中國知網(wǎng)數(shù)據(jù)庫攜手施普林格[N];光明日報;2008年

相關(guān)博士學(xué)位論文 前10條

1 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

2 劉楠;面向微博短文本的情感分析研究[D];武漢大學(xué);2013年

3 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

4 周,

本文編號:2211520


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2211520.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48b95***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com