一種高效的Web新聞發(fā)表時間提取方法
本文關(guān)鍵詞:一種高效的Web新聞發(fā)表時間提取方法
更多相關(guān)文章: 信息抽取 發(fā)表時間抽取 Web新聞 高效方法
【摘要】:Web網(wǎng)頁的發(fā)表時間在Web搜索中起到重要的作用,因為用戶獲取的結(jié)果往往是與時間密切相關(guān)的.本文圍繞Web新聞發(fā)表時間的提取,提出了一種高效的Web新聞發(fā)表時間提取方法.該方法考慮到了Web新聞網(wǎng)頁URL地址隱含時間信息的特性,信息發(fā)表時間與新聞標(biāo)題的距離約束.在主流的7個中文搜索引擎,使用了30個關(guān)鍵字,共獲取3827篇Web新聞信息進行了提取時間的準(zhǔn)確率及時間消耗的實驗分析與比較,結(jié)果顯示本文提出方法的準(zhǔn)確率為95.5%,時間消耗為88秒.
【作者單位】: 淮海工學(xué)院計算機工程學(xué)院;中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 信息抽取 發(fā)表時間抽取 Web新聞 高效方法
【基金】:國家自然科學(xué)基金項目(60975033)資助 連云港市科技攻關(guān)項目(CG1121)資助
【分類號】:TP391.3
【正文快照】: 1引言隨著社會信息化的迅猛發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的重要來源.由于互聯(lián)網(wǎng)信息具有海量、復(fù)雜、非結(jié)構(gòu)化等特點,這為互聯(lián)網(wǎng)信息的獲取帶來了很大困難.大量的輿情監(jiān)測系統(tǒng)的應(yīng)用推廣表明,對互聯(lián)網(wǎng)上各種不同的信息載體(比如新聞網(wǎng)、博客、論壇、微博、貼吧等)進行信息
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 劉莉;何中市;邢欣來;毛小麗;;基于語義角色的中文時間表達式識別[J];計算機應(yīng)用研究;2011年07期
2 鄔桐;周雅倩;黃萱菁;吳立德;;自動構(gòu)建時間基元規(guī)則庫的中文時間表達式識別[J];中文信息學(xué)報;2010年04期
3 譚紅葉;鄭家恒;梁吉業(yè);;時間關(guān)系識別研究進展[J];中文信息學(xué)報;2011年05期
4 李君嬋;譚紅葉;王風(fēng)娥;;中文時間表達式及類型識別[J];計算機科學(xué);2012年S3期
5 林靜;曹德芳;苑春法;;中文時間信息的TIMEX2自動標(biāo)注[J];清華大學(xué)學(xué)報(自然科學(xué)版)網(wǎng)絡(luò).預(yù)覽;2008年01期
6 孫榮;周文;劉宗田;;用規(guī)則抽取句子中事件信息[J];小型微型計算機系統(tǒng);2011年11期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 王風(fēng)娥;譚紅葉;錢揖麗;;基于最大熵的句內(nèi)時間關(guān)系識別[J];計算機工程;2012年04期
2 李君嬋;譚紅葉;王風(fēng)娥;;中文時間表達式及類型識別[J];計算機科學(xué);2012年S3期
3 肖升;何炎祥;李勇帆;;基于依存分析的中文時間表達式類型判定[J];計算機應(yīng)用;2013年06期
4 沈思;蘇新寧;謝靖;王東波;;基于清華漢語樹庫的時間表達式抽取模型構(gòu)建研究[J];圖書情報工作;2012年18期
5 昝紅英;張騰飛;張坤麗;;規(guī)則與統(tǒng)計相結(jié)合的介詞用法自動識別研究[J];計算機工程與設(shè)計;2013年06期
6 冷伏海;白如江;祝清松;;面向科技文獻的混合語義信息抽取方法研究[J];圖書情報工作;2013年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 許旭陽;網(wǎng)絡(luò)新聞多文檔自動摘要技術(shù)研究[D];解放軍信息工程大學(xué);2011年
2 王風(fēng)娥;漢語文本中的時間關(guān)系識別技術(shù)研究[D];山西大學(xué);2012年
3 劉明;馬爾可夫邏輯網(wǎng)在基于信任的推薦系統(tǒng)與中文時間關(guān)系識別中的應(yīng)用[D];重慶大學(xué);2012年
4 劉莉;中文時間事件關(guān)系識別的方法研究[D];重慶大學(xué);2012年
5 朱孟俠;農(nóng)作物病蟲害抽取與全文檢索技術(shù)研究[D];浙江工商大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 賀瑞芳;秦兵;潘越群;劉挺;李生;;基于啟發(fā)式錯誤驅(qū)動學(xué)習(xí)的中文時間表達式識別[J];高技術(shù)通訊;2008年12期
2 徐永東;徐志明;王曉龍;劉遠(yuǎn)超;;中文文本時間信息獲取及語義計算[J];哈爾濱工業(yè)大學(xué)學(xué)報;2007年03期
3 劉宗田;黃美麗;周文;仲兆滿;付劍鋒;單建芳;智慧來;;面向事件的本體研究[J];計算機科學(xué);2009年11期
4 付劍鋒;劉宗田;付雪峰;周文;仲兆滿;;基于依存分析的事件識別[J];計算機科學(xué);2009年11期
5 姜吉發(fā);一種事件信息抽取模式獲取方法[J];計算機工程;2005年15期
6 張仰森;;基于最大熵模型的漢語詞義消歧與標(biāo)注方法[J];計算機工程;2009年18期
7 湯庸;林鷺賢;羅燁敏;潘炎;;基于自動問答系統(tǒng)的信息檢索技術(shù)研究進展[J];計算機應(yīng)用;2008年11期
8 黃高輝;姚天f ;劉全升;;基于CRF算法的漢語比較句識別和關(guān)系抽取[J];計算機應(yīng)用研究;2010年06期
9 劉莉;何中市;邢欣來;毛小麗;;基于語義角色的中文時間表達式識別[J];計算機應(yīng)用研究;2011年07期
10 王昀,苑春法;基于轉(zhuǎn)換的時間-事件關(guān)系映射[J];中文信息學(xué)報;2004年04期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李向陽;苗壯;肖江;;無結(jié)構(gòu)文本信息抽取綜述[J];軍事通信技術(shù);2004年02期
2 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期
3 張春明;;Web挖掘技術(shù)研究[J];廊坊師范學(xué)院學(xué)報(自然科學(xué)版);2008年05期
4 張巖;;基于本體的信息抽取技術(shù)研究[J];科技信息(學(xué)術(shù)研究);2008年36期
5 鄒榮;;對垂直搜索技術(shù)的分析[J];福建電腦;2009年02期
6 吳芳;鄭君;劉金亮;宗克玄;;基于GATE框架的中文信息抽取技術(shù)的研究[J];電腦知識與技術(shù);2009年24期
7 于薇;;包裝器的自動生成方法介紹[J];才智;2009年28期
8 張濤;胡正華;夏明星;;遠(yuǎn)洋運輸業(yè)業(yè)務(wù)郵件信息抽取系統(tǒng)的設(shè)計及實現(xiàn)[J];電腦知識與技術(shù);2010年01期
9 朱青;呂曉旭;;基于機器學(xué)習(xí)的HTML標(biāo)題抽取[J];微計算機信息;2010年09期
10 祝偉華;盧熠;劉斌斌;;基于HMM的Web信息抽取算法的研究與應(yīng)用[J];計算機科學(xué);2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點改進[A];全國第4屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
3 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學(xué)習(xí)方法在中文機構(gòu)名識別中的應(yīng)用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
4 姜吉發(fā);王樹西;;一種自舉的二元關(guān)系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
5 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
6 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結(jié)合的案件名稱識別[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
7 周國棟;孔芳;朱巧明;;指代消解:國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
8 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進企業(yè)信息化——第十一屆中國Java技術(shù)及應(yīng)用交流大會文集[C];2008年
9 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
10 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語塊分析的信息抽取的研究與實現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 史小敏;前景廣闊的信息抽取技術(shù)[N];解放軍報;2004年
2 彭芳;搜索也專業(yè)[N];中國計算機報;2004年
3 本報記者 王翌;8848:優(yōu)化EC流程[N];計算機世界;2004年
4 上海交通大學(xué)APEX數(shù)據(jù)和知識管理實驗室 王昊奮邋俞勇;語義Web推動下一代搜索[N];計算機世界;2007年
5 董振東;到用戶中去[N];中國計算機報;2003年
6 司靜輝;直擊數(shù)字環(huán)境下情報技術(shù)發(fā)展動向[N];科技日報;2007年
7 任一鳴;垂直搜索:抓住細(xì)分需求[N];計算機世界;2007年
8 張友林 甘肅省武威市涼州區(qū)中醫(yī)院;開發(fā)中醫(yī)專用軟件很有必要[N];中國中醫(yī)藥報;2009年
9 馬志彥;悄然而至的EIP[N];中國計算機報;2002年
10 本報記者 于翔;BI:電信業(yè)滲透中[N];網(wǎng)絡(luò)世界;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
2 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
4 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年
5 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
6 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年
7 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年
8 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年
9 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
10 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年
2 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年
3 田紅;表格信息抽取引擎的設(shè)計與實現(xiàn)[D];西北師范大學(xué);2004年
4 楊文柱;基于領(lǐng)域知識和信息抽取的個性化Web查詢系統(tǒng)[D];河北大學(xué);2002年
5 張志強;Web信息抽取技術(shù)研究與基于Web service的實現(xiàn)[D];河北大學(xué);2004年
6 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
7 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
8 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年
9 楊秀麗;基于網(wǎng)頁內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D];河北科技大學(xué);2010年
10 廉成洋;基于樹結(jié)構(gòu)的Web信息抽取技術(shù)研究[D];南京航空航天大學(xué);2010年
本文關(guān)鍵詞:一種高效的Web新聞發(fā)表時間提取方法
更多相關(guān)文章: 信息抽取 發(fā)表時間抽取 Web新聞 高效方法
,
本文編號:511823
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/511823.html