天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

針對開源論壇網(wǎng)頁的信息抽取研究

發(fā)布時間:2018-05-26 23:15

  本文選題:記錄定位 + 網(wǎng)頁聚類; 參考:《計算機科學與探索》2017年01期


【摘要】:互聯(lián)網(wǎng)上大量論壇使用開源軟件生成,針對這類論壇,提出了針對論壇網(wǎng)頁信息抽取的基于模板的信息抽取方法。首先給出了基于網(wǎng)頁結(jié)構(gòu)相似度的簇劃分策略,并通過實驗證明了該策略優(yōu)于直接基于軟件版本號等直觀類別的劃分策略;其次提出了基于開源軟件特征的聚類算法,能夠根據(jù)網(wǎng)頁相似度將大規(guī)模開源軟件生成的論壇網(wǎng)頁進行有效的自動劃分,形成可標注類別。實驗表明,該方法不僅保持了基于模板的抽取方法所具有的高準確率的優(yōu)點,同時彌補了其模板配置與維護代價高的缺點。
[Abstract]:A large number of forums on the Internet are generated by open source software. For this kind of forum, a template based information extraction method for forum web pages is proposed. Firstly, the clustering strategy based on the similarity of web page structure is given, and the experimental results show that the strategy is superior to the one based on the software version number directly. Secondly, a clustering algorithm based on open source software features is proposed. According to the similarity of web pages, the forum pages generated by large scale open source software can be divided automatically and effectively, and annotated categories can be formed. Experiments show that the proposed method not only maintains the high accuracy of template extraction method, but also makes up for the high cost of template configuration and maintenance.
【作者單位】: 中國科學院計算技術(shù)研究所;中國科學院大學;
【基金】:國家重點基礎研究發(fā)展計劃(973計劃) 國家高技術(shù)研究發(fā)展計劃(863計劃) 國家自然科學基金 國家科技支撐計劃 山東省自主創(chuàng)新及成果轉(zhuǎn)化專項 中科院醫(yī)學影像項目 歐盟第七科技框架計劃(FP7)項目~~
【分類號】:TP393.092;TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 朱松巖;;網(wǎng)頁設計之特性分析[J];山東省農(nóng)業(yè)管理干部學院學報;2009年03期

2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設;2009年12期

3 蔣桂梅;;網(wǎng)頁設計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期

6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設計與實現(xiàn)[J];計算機光盤軟件與應用;2012年18期

8 何立波;周世波;;網(wǎng)頁設計中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應用;2000年02期

10 項鎮(zhèn);網(wǎng)頁設計新概念[J];江西教育學院學報(自然科學);2001年06期

相關(guān)會議論文 前10條

1 吳建軍;;談網(wǎng)頁設計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術(shù)交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2000年

相關(guān)重要報紙文章 前10條

1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網(wǎng)絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年

10 ;網(wǎng)絡應用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年

相關(guān)博士學位論文 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學;2013年

2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學;2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學;2009年

9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年

相關(guān)碩士學位論文 前10條

1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學;2015年

2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設計中的應用研究[D];西南交通大學;2015年

3 張W,

本文編號:1939349


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1939349.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶322d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com