天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內(nèi)容的網(wǎng)頁采集分類系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2021-11-28 02:16
  隨著互聯(lián)網(wǎng)的日益繁榮,互聯(lián)網(wǎng)上的信息資源也越來越多,雖然方便了人們的知識獲取,但是也帶來了信息量過大,噪音信息較多的問題,反而影響了用戶對于有效信息的尋找。互聯(lián)網(wǎng)新聞作為一種主流的互聯(lián)網(wǎng)信息來源,相對于其他信息來源具有更大的研究價值,對互聯(lián)網(wǎng)新聞準確高效地采集并分類是十分必要的,在信息檢索和數(shù)據(jù)挖掘領(lǐng)域都有著重要的意義。基于網(wǎng)頁內(nèi)容對新聞進行分類可以充分考慮新聞內(nèi)容的語義,避免了網(wǎng)站對新聞?wù)`分類或未分類帶來的采集結(jié)果錯誤,有著更好的分類效果。論文對網(wǎng)頁正文采集技術(shù)進行了深入的研究,結(jié)合新聞類網(wǎng)站的特點,制定了較為有效的采集策略和更新策略,保證了新聞采集的高效性。由于新聞網(wǎng)站來源較多,網(wǎng)站改版較為頻繁,基于模板的正文提取技術(shù)己經(jīng)不能保證提取的準確率,論文通過對網(wǎng)頁正文提取技術(shù)進行分析比較,得到了一種基于文本分布的通用正文提取算法,并通過實驗確定了算法中的最優(yōu)值,減少了人工編寫規(guī)則帶來的時間成本。對于文本的分類,論文研究并分析了文本分類的整體流程,選用Labeled LDA進行文本的特征表示,相對于傳統(tǒng)的向量空間模型降低了特征維度,避免了語義信息的丟失,將LDA模型擴展為有監(jiān)督的分類模型。... 

【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:57 頁

【學位級別】:碩士

【部分圖文】:

基于內(nèi)容的網(wǎng)頁采集分類系統(tǒng)的設(shè)計與實現(xiàn)


爬蟲的基本工作流程

廣度優(yōu)先,遍歷,網(wǎng)頁,順序


圖 2-2 廣度優(yōu)先遍歷順序能夠很快的找到種子 URL 相關(guān)的網(wǎng)頁鏈接,從而避免爬蟲爬蟲更容易實現(xiàn)分布化爬取,從而提升爬取效率。策略的基本思路是按照網(wǎng)頁層級深度從低到高的順序,依次訪問[15],此時,爬蟲返回上一節(jié)點進行其他分支的爬取,直到網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu),深度優(yōu)先遍歷策略的遍歷順序如圖中數(shù)字所示:

深度優(yōu)先遍歷,垂直搜索,策略,順序


圖 2-2 廣度優(yōu)先遍歷順序能夠很快的找到種子 URL 相關(guān)的網(wǎng)頁鏈接,從而避免爬蟲爬蟲更容易實現(xiàn)分布化爬取,從而提升爬取效率。略的基本思路是按照網(wǎng)頁層級深度從低到高的順序,依次訪[15],此時,爬蟲返回上一節(jié)點進行其他分支的爬取,直到網(wǎng)絡(luò)結(jié)構(gòu),深度優(yōu)先遍歷策略的遍歷順序如圖中數(shù)字所示

【參考文獻】:
期刊論文
[1]基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J]. 劉宇,鄭成煥.  軟件. 2017(07)
[2]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒.  工業(yè)控制計算機. 2016(02)
[3]一種基于加權(quán)LDA模型和多粒度的文本特征選擇方法[J]. 李湘東,巴志超,黃莉.  現(xiàn)代圖書情報技術(shù). 2015(05)
[4]泛化誤差的各種交叉驗證估計方法綜述[J]. 楊柳,王鈺.  計算機應(yīng)用研究. 2015(05)
[5]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊.  計算機技術(shù)與發(fā)展. 2015(02)
[6]基于LDA-wSVM模型的文本分類研究[J]. 李鋒剛,梁鈺,GAO Xiao-zhi,ZENGER Kai.  計算機應(yīng)用研究. 2015(01)
[7]基于LDA的文本分類算法[J]. 何錦群,劉朋杰.  天津理工大學學報. 2014(04)
[8]文本分類性能評價研究[J]. 奉國和.  情報雜志. 2011(08)
[9]基于文檔頻率的特征選擇方法[J]. 楊凱峰,張毅坤,李燕.  計算機工程. 2010(17)
[10]基于機器學習的網(wǎng)頁正文提取方法[J]. 安增文,王超,徐杰鋒.  微型機與應(yīng)用. 2010(12)

碩士論文
[1]基于web的網(wǎng)頁鏈接與正文抽取技術(shù)研究[D]. 蒲宇達.哈爾濱工業(yè)大學 2006



本文編號:3523498

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3523498.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b2ab6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com