天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于群體特征的頁面抽取方法研究

發(fā)布時間:2018-03-08 17:01

  本文選題:頁面抽取 切入點:頁面聚類 出處:《中國地質(zhì)大學(xué)(北京)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,Web已經(jīng)成為了世界上最大的信息載體。大數(shù)據(jù)技術(shù)的出現(xiàn)為我們提供了獲取海量數(shù)據(jù)的能力。互聯(lián)網(wǎng)2.0時代的到來,使得信息分發(fā)成為了日常獲取信息的一個重要的渠道。從互聯(lián)網(wǎng)海量的頁面中提取出這些有用的信息,對于信息的獲取與利用具有十分重大的意義。Web頁面常用的標(biāo)記語言是HTML,是一種半結(jié)構(gòu)化語言。常見的Web頁面在生成時從數(shù)據(jù)庫讀取數(shù)據(jù),對模板頁面進(jìn)行渲染得到最終的HTML代碼。本文通過對這種Web頁面生成方式進(jìn)行研究總結(jié),提出了基于DOM(Document Object Model)樹模型的樣本頁面融合方式,利用融合后的結(jié)果進(jìn)行節(jié)點變化度的統(tǒng)計,找到正文塊節(jié)點,自動歸納學(xué)習(xí)出抽取規(guī)則的方法。并且在此基礎(chǔ)上設(shè)計了樣本頁面聚類的流程,實現(xiàn)了從海量頁面中聚集相同模板頁面的方法。同時本文針對網(wǎng)站改版導(dǎo)致抽取規(guī)則失效的問題進(jìn)行了重點研究,通過對樣本頁面聚類的流程進(jìn)行改進(jìn),實現(xiàn)了抽取規(guī)則對頁面結(jié)構(gòu)變化自適應(yīng)的功能,真正意義上實現(xiàn)了抽取的自動化。同時利用抽取規(guī)則與鏈接泛化結(jié)果對頁面進(jìn)行進(jìn)一步聚類,從而實現(xiàn)了樣本分組的精細(xì)化與結(jié)構(gòu)變化的自適應(yīng)。本文在提出的抽取規(guī)則提取算法與樣本頁面采集框架的基礎(chǔ)上設(shè)計并實現(xiàn)了一套完成的抽取系統(tǒng)。系統(tǒng)根據(jù)算法框架的設(shè)計共分為四個模塊:樣本采集模塊、模板提取模塊、頁面抽取模塊、控制調(diào)度模塊。其中:前三個模塊獨立運行,可以方便的進(jìn)行分布式部署;控制調(diào)度模塊控制著前三個模塊的工作流程與數(shù)據(jù)流動方向。各個模塊之間通過網(wǎng)絡(luò)通信進(jìn)行交互,通過這種方式不僅保證了系統(tǒng)的高可用性,同時也滿足了高吞吐的需求。經(jīng)實際生產(chǎn)環(huán)境證明,該系統(tǒng)可以良好的運行在日均千萬級別的抽取環(huán)境下。同時在對新聞類頁面進(jìn)行抽取時,抽取結(jié)果的查全率與查準(zhǔn)率均可以達(dá)到很高的水平。
[Abstract]:With the continuous development of the Internet, Web has become the largest information carrier in the world. The emergence of big data technology provides us with the ability to obtain massive data. Information distribution has become an important channel for obtaining information on a daily basis. The useful information is extracted from the massive pages of the Internet. It is of great significance to obtain and utilize information. The commonly used markup language for web pages is HTML, which is a semi-structured language. The final HTML code is obtained by rendering the template pages. This paper proposes a sample page fusion method based on the DOM(Document Object Model tree model through the research and summary of this Web page generation method. Using the fusion results to calculate the degree of change of the nodes, find out the node of the text block, and automatically induce and learn the method of extracting rules, and on this basis, design the flow of the clustering of sample pages. The method of aggregating the same template pages from massive pages is realized. At the same time, this paper focuses on the problem that the website revision results in the invalidation of the extraction rules, and improves the clustering process of the sample pages. The function of adapting extraction rules to the change of page structure is realized, and the automation of extraction is realized. At the same time, the extraction rules and link generalization results are used to further cluster the pages. In this paper, we design and implement a complete extraction system based on the proposed extraction rule extraction algorithm and sample page acquisition framework. The design of the algorithm framework is divided into four modules: sample acquisition module, Template extraction module, page extraction module, control scheduling module. Among them: the first three modules run independently, can be conveniently distributed deployment; The control scheduling module controls the workflow of the first three modules and the direction of data flow. At the same time, it also meets the demand of high throughput. The actual production environment proves that the system can run well in the extraction environment with daily average of ten million levels. At the same time, when extracting news pages, The recall rate and precision rate of the extracted results can reach a very high level.
【學(xué)位授予單位】:中國地質(zhì)大學(xué)(北京)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄧箴;包宏;;改進(jìn)的關(guān)鍵詞抽取方法研究[J];計算機工程與設(shè)計;2009年20期

2 石楨;姚天f ;;一種基于統(tǒng)計和規(guī)則的核心地名抽取方法[J];微型電腦應(yīng)用;2013年02期

3 張世輝;一種新的基于距離的漢字筆畫抽取方法[J];計算機工程;2003年14期

4 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2008年04期

5 楊建明;;關(guān)系抽取方法研究[J];電子技術(shù);2009年04期

6 孫繼鵬;賈民;劉增寶;;一種面向文本的概念抽取方法的研究[J];計算機應(yīng)用與軟件;2009年09期

7 鄭偉;呂建新;張建偉;;文本分類中特征預(yù)抽取方法研究[J];情報科學(xué);2011年01期

8 肖明軍,張巍,鄒翔,蔡慶生;一種多策略聯(lián)合信息抽取方法[J];小型微型計算機系統(tǒng);2005年04期

9 郝博一;夏云慶;鄔曉鈞;鄭方;劉軼;;基于泛化和繁殖的自舉式意見目標(biāo)抽取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年S1期

10 栗春亮;朱艷輝;徐葉強;;中文產(chǎn)品評論中屬性詞抽取方法研究[J];計算機工程;2011年12期

相關(guān)會議論文 前10條

1 宋濤;李素建;;基于流形排序的領(lǐng)域詞抽取方法[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年

2 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年

3 羅斐;毛宇光;;基于領(lǐng)域分類的查詢接口模式抽取方法[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年

4 栗春亮;朱艷輝;徐葉強;;中文產(chǎn)品評論中屬性詞抽取方法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

5 劉昊;王健;林鴻飛;;一種模板與圖核融合的蛋白質(zhì)關(guān)系抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

6 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年

7 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學(xué)習(xí)方法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

8 何莉;林鴻飛;;一種面向WEB的生物醫(yī)學(xué)領(lǐng)域英漢術(shù)語翻譯對抽取方法[A];中國計算機語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

9 王建軍;李紅燕;唐綠岸;應(yīng)鶯;薛明;;基于模板的構(gòu)件重用和動態(tài)模式修改策略[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

10 左云存;宗成慶;;基于HMM的短語翻譯對抽取方法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

相關(guān)重要報紙文章 前2條

1 第七樂章;制作個性化的課件模板[N];中國電腦教育報;2004年

2 湖南省常德市煙草公司 羅先學(xué);建設(shè)煙草物流平臺勢在必行[N];計算機世界;2010年

相關(guān)博士學(xué)位論文 前4條

1 劉勝宇;生物醫(yī)學(xué)文本中藥物信息抽取方法研究[D];哈爾濱工業(yè)大學(xué);2016年

2 劉倩;觀點挖掘中評價對象抽取方法的研究[D];東南大學(xué);2016年

3 賈暉;基于模板的秦俑三維碎片部位標(biāo)注技術(shù)研究[D];西北大學(xué);2015年

4 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 陳倩;基于特征模型的跨領(lǐng)域信息抽取方法研究[D];上海大學(xué);2015年

2 劉驍;基于產(chǎn)品評論的意見抽取方法研究[D];黑龍江大學(xué);2015年

3 洪軍建;面向社會網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究[D];西藏大學(xué);2016年

4 梅莉莉;基于領(lǐng)域特殊性和統(tǒng)計語言知識的新詞抽取方法[D];北京理工大學(xué);2016年

5 陳亞東;面向數(shù)據(jù)稀疏問題的英文事件抽取研究[D];蘇州大學(xué);2016年

6 朱珠;基于雙語的事件抽取方法研究[D];蘇州大學(xué);2016年

7 余偉;基于領(lǐng)域知識的Web信息抽取方法研究[D];安徽工程大學(xué);2016年

8 陳茂榕;領(lǐng)域依賴的Web信息抽取系統(tǒng)設(shè)計與實現(xiàn)[D];東南大學(xué);2016年

9 劉征;作者資訊中的有用文本信息抽取方法研究[D];東北師范大學(xué);2016年

10 許華;基于有監(jiān)督學(xué)習(xí)的醫(yī)療實體抽取方法研究[D];武漢科技大學(xué);2016年



本文編號:1584766

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1584766.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a97f6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com