圖書網(wǎng)頁的自動(dòng)識(shí)別及書目信息抽取研究
本文關(guān)鍵詞:圖書網(wǎng)頁的自動(dòng)識(shí)別及書目信息抽取研究 出處:《現(xiàn)代圖書情報(bào)技術(shù)》2014年04期 論文類型:期刊論文
更多相關(guān)文章: 圖書網(wǎng)頁 書目信息 自動(dòng)識(shí)別 信息抽取
【摘要】:【目的】以相關(guān)的圖書類網(wǎng)頁為對(duì)象,研究圖書網(wǎng)頁的自動(dòng)識(shí)別及書目信息抽取方法!痉椒ā吭诜治霾煌瑘D書網(wǎng)頁標(biāo)簽使用特征、布局結(jié)構(gòu)以及書目信息表征的基礎(chǔ)上,通過定義通用規(guī)則及共現(xiàn)詞和頁面分析等技術(shù)建立圖書網(wǎng)頁自動(dòng)識(shí)別及書目信息抽取模型!窘Y(jié)果】實(shí)驗(yàn)證明,該模型針對(duì)來自一般性網(wǎng)站的圖書網(wǎng)頁識(shí)別率可以達(dá)到近80%,而針對(duì)各類圖書網(wǎng)頁書目信息的抽取準(zhǔn)確率平均也達(dá)到79%左右!揪窒蕖吭摲椒ㄖ虚撝档脑O(shè)定綜合考慮了多種類型圖書網(wǎng)頁信息特征,但對(duì)于部分特征極其特殊的網(wǎng)頁存在誤判現(xiàn)象,若進(jìn)一步改進(jìn)算法,可能效果更好!窘Y(jié)論】此方法對(duì)于各種類型圖書網(wǎng)頁的自動(dòng)識(shí)別和書目信息抽取均能取得比較理想的效果,普適性較強(qiáng),同時(shí)也為圖書網(wǎng)頁信息組織管理和自動(dòng)分類研究奠定了基礎(chǔ)。
[Abstract]:......
【作者單位】: 武漢大學(xué)信息管理學(xué)院;武漢大學(xué)信息資源研究中心;武漢大學(xué)圖書館;
【基金】:湖北省高校圖工委基金項(xiàng)目“傳統(tǒng)分類體系下多種類型文獻(xiàn)自動(dòng)分類研究”(項(xiàng)目編號(hào):2012YB02)的研究成果之一
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 1引言伴隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息逐漸覆蓋了政治、經(jīng)濟(jì)、文化等各個(gè)領(lǐng)域。網(wǎng)頁文檔本身作為一種信息傳遞的載體,豐富人們信息來源的同時(shí),也給人們獲得有用信息帶來了極大的困難。面對(duì)浩瀚的網(wǎng)絡(luò)信息資源,如何有效地抽取網(wǎng)頁信息,幫助用戶快速獲得所需要的細(xì)粒度信息,已
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 施洋;張奇;黃萱菁;;含有語義特征的網(wǎng)頁新聞自動(dòng)抽取[J];計(jì)算機(jī)工程;2010年07期
2 楊舟;卓林;趙朋朋;崔志明;;一種針對(duì)商品數(shù)據(jù)記錄的自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2010年23期
3 劉偉;嚴(yán)華梁;;一種統(tǒng)一的Web新聞對(duì)象自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2012年11期
4 范純龍;夏佳;肖昕;呂紅偉;徐蕾;;基于功能語義單元的博客評(píng)論抽取技術(shù)[J];計(jì)算機(jī)應(yīng)用;2011年09期
5 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計(jì)算機(jī)應(yīng)用研究;2007年03期
6 吳曉彥;鄭驍慶;顧軼靈;沈元一;;基于結(jié)構(gòu)語義熵的網(wǎng)上商品信息提取系統(tǒng)[J];計(jì)算機(jī)應(yīng)用與軟件;2010年09期
7 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
8 王瑞;周喜;李曉;;基于正文相關(guān)度的維吾爾網(wǎng)頁正文提取[J];計(jì)算機(jī)工程;2012年21期
9 唐偉;洪宇;馮艷卉;姚建民;朱巧明;;網(wǎng)頁中商品“屬性—值”關(guān)系的自動(dòng)抽取方法研究[J];中文信息學(xué)報(bào);2013年01期
10 孔勝;王宇;;一種基于正文特征的新聞網(wǎng)頁抽取方法[J];情報(bào)雜志;2010年08期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];兵工學(xué)報(bào);2009年S1期
2 胡迪;陳運(yùn);楊義先;陳悅;;基于支持向量機(jī)與余弦夾角法的中文網(wǎng)頁過濾的研究與設(shè)計(jì)[J];成都信息工程學(xué)院學(xué)報(bào);2011年05期
3 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期
4 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
5 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期
6 趙文;唐建雄;高慶鋒;;基于統(tǒng)計(jì)的中文網(wǎng)頁正文抽取的研究[J];電腦知識(shí)與技術(shù);2008年01期
7 王強(qiáng);戰(zhàn)忠麗;張鳳君;;基于語義分組向量空間模型的Web新聞檢索算法[J];電子科技;2011年04期
8 胡瑜;王立志;;基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J];遼寧石油化工大學(xué)學(xué)報(bào);2009年03期
9 余偉;;基于本體的微博客用戶行為模型研究[J];廣東技術(shù)師范學(xué)院學(xué)報(bào);2010年06期
10 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
相關(guān)會(huì)議論文 前4條
1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
2 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
3 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
4 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
相關(guān)博士學(xué)位論文 前3條
1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學(xué);2009年
3 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王樂超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
2 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年
3 胡金棟;網(wǎng)頁正文提取及去重技術(shù)研究[D];浙江大學(xué);2011年
4 孟祥燕;問答對(duì)自動(dòng)獲取的研究[D];昆明理工大學(xué);2008年
5 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年
6 劉繼勇;網(wǎng)絡(luò)輿情預(yù)警輔助決策支持系統(tǒng)模型及關(guān)鍵技術(shù)研究[D];石家莊經(jīng)濟(jì)學(xué)院;2010年
7 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
8 陳晶;基于網(wǎng)頁的信息抽取的研究[D];西安工業(yè)大學(xué);2011年
9 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問題的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2011年
10 孫文婷;基于語義的網(wǎng)上股評(píng)信息的提取研究[D];武漢理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期
2 張成洪,肖軍建,張誠;Web內(nèi)容抽取及其數(shù)據(jù)管理方法[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2001年02期
3 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
4 楊敬偉;楊文柱;高悅;;基于DOM的Web信息抽取規(guī)則的構(gòu)造與實(shí)現(xiàn)[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
5 吳麒;陳興蜀;譚駿;;基于權(quán)值優(yōu)化的網(wǎng)頁正文內(nèi)容提取算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
6 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
7 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
8 袁家政;須德;鮑泓;;基于結(jié)構(gòu)與文本關(guān)鍵詞相關(guān)度的XML網(wǎng)頁分類研究[J];計(jì)算機(jī)研究與發(fā)展;2006年08期
9 韋勇;連一峰;馮登國;;基于信息融合的網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)估模型[J];計(jì)算機(jī)研究與發(fā)展;2009年03期
10 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期
相關(guān)碩士學(xué)位論文 前3條
1 江毅銘;專業(yè)搜索引擎索引技術(shù)的研究與實(shí)現(xiàn)[D];北京化工大學(xué);2005年
2 任函;大規(guī)模中文網(wǎng)頁的自動(dòng)分類研究[D];華中師范大學(xué);2006年
3 劉斌斌;基于HMM模型的Web信息抽取方法的研究與改進(jìn)[D];重慶大學(xué);2008年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鐘世通;;C++Builder編程訪問網(wǎng)頁信息的方法[J];科技資訊;2007年19期
2 郭利偉;王家兵;;Web信息自動(dòng)標(biāo)引方法比較[J];內(nèi)蒙古科技與經(jīng)濟(jì);2009年07期
3 火善棟;;FORM表單反饋網(wǎng)頁信息抽取的研究與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年09期
4 陳一峰;趙恒凱;余小清;萬旺根;;基于遺傳算法的主題爬蟲策略改進(jìn)[J];計(jì)算機(jī)仿真;2010年10期
5 謝寶榮;;用HTML語言編制多層網(wǎng)頁[J];計(jì)算機(jī)教育;2007年07期
6 朱慶光;;限時(shí)游戲、上網(wǎng)、定時(shí)關(guān)機(jī)、過濾不良網(wǎng)頁信息——中國第一套家庭電腦管理軟件面世[J];科學(xué)與文化;2004年01期
7 盧正鼎;張茂元;;一種基于義素的網(wǎng)頁信息項(xiàng)語義匹配方法研究[J];計(jì)算機(jī)科學(xué);2005年04期
8 劉偉,朱玲,王慧玲,賈陸;藥師實(shí)用互聯(lián)網(wǎng)藥學(xué)資源的檢索[J];中國藥房;2002年10期
9 邢玲;馬建國;李幼平;劉志文;;一種基于UCL的中文網(wǎng)頁信息過濾方法[J];電子學(xué)報(bào);2006年10期
10 武曉娟;;基于網(wǎng)站的搜索引擎研究[J];軟件;2008年06期
相關(guān)會(huì)議論文 前10條
1 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁集團(tuán)的模糊變換[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
2 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 張陽;李戰(zhàn)懷;近藤廣幸;;WEB PAGE的自動(dòng)分類[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年
4 李芳;盛煥燁;;特定領(lǐng)域?qū)<抑黜撔畔⒌淖詣?dòng)抽取[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
6 邵輝;李芳;;基于樹模型算法的動(dòng)態(tài)網(wǎng)頁信息抽取研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
7 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
8 王文生;謝能付;;基于Web的農(nóng)業(yè)信息自動(dòng)抽取方法研究[A];中國農(nóng)業(yè)信息科技創(chuàng)新與學(xué)科發(fā)展大會(huì)論文匯編[C];2007年
9 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
10 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網(wǎng)頁褒貶傾向性識(shí)別[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前3條
1 鄭依華;搜索引擎也開源[N];計(jì)算機(jī)世界;2006年
2 本報(bào)記者 劉燕;中間件助力“轉(zhuǎn)方式、調(diào)結(jié)構(gòu)、惠民生”[N];科技日?qǐng)?bào);2010年
3 本報(bào)記者 呂剛;信息搜索不再上演“百團(tuán)大戰(zhàn)”[N];國際商報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 焦斌星;用于搜索的網(wǎng)頁可視化摘要技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2012年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
4 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2010年
5 劉守群;海量網(wǎng)絡(luò)視頻快速檢索關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2010年
6 段瑞雪;基于依存關(guān)系的用戶意圖的研究[D];北京郵電大學(xué);2011年
7 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
8 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
9 單棟棟;搜索引擎中索引剪枝的研究[D];北京大學(xué);2013年
10 陳冬玲;基于潛在語義的個(gè)性化搜索關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 張航;主題爬蟲的實(shí)現(xiàn)及其關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2010年
2 黨春輝;網(wǎng)頁消重和聚類算法在高校搜索引擎中的研究與應(yīng)用[D];東華大學(xué);2010年
3 任斌;基于本體的主動(dòng)學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[D];吉林大學(xué);2010年
4 任蘭鵬;基于代表樣本的中文網(wǎng)頁分類研究[D];山東大學(xué);2010年
5 薛惠;基于JAVA的移動(dòng)新聞搜索引擎的研究與設(shè)計(jì)[D];河北科技大學(xué);2010年
6 楊宇;搜索詞的意圖分析與應(yīng)用[D];北京郵電大學(xué);2010年
7 王立建;中文web文本過濾技術(shù)研究[D];中北大學(xué);2010年
8 宗寶琴;基于自然語言理解的智能檢索接口技術(shù)的研究及其應(yīng)用[D];河北科技大學(xué);2011年
9 曹桂鋒;搜索引擎中網(wǎng)頁分類和網(wǎng)頁凈化的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2013年
10 段飛;相似網(wǎng)頁識(shí)別算法的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
,本文編號(hào):1352642
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1352642.html