英文文本中命名實體識別及關(guān)系抽取技術(shù)研究
本文關(guān)鍵詞:面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《華東理工大學(xué)》 2012年
英文文本中命名實體識別及關(guān)系抽取技術(shù)研究
李陽
【摘要】:命名實體間語義關(guān)系抽取是文本信息抽取中的關(guān)鍵步驟,是語義識別的重要研究方向。隨著互聯(lián)網(wǎng)對人們生活、學(xué)習(xí)、工作等各個方面的不斷加深的影響,從自由文本及互聯(lián)網(wǎng)網(wǎng)頁中抽取出有用的結(jié)構(gòu)化信息具有非常重要的意義;隨著自然語言處理技術(shù)和機器學(xué)習(xí)技術(shù)的不斷發(fā)展和成熟,人們已經(jīng)可以從互聯(lián)網(wǎng)中抽取出結(jié)構(gòu)化信息甚至知識。 本文介紹了信息抽取系統(tǒng)的特點及其廣泛應(yīng)用,然后進一步分析了命名實體識別和實體關(guān)系抽取的特點和研究進展。在對現(xiàn)有信息抽取系統(tǒng)的研究基礎(chǔ)上,本文基于Spring和Struts,利用GATE和WordNet,構(gòu)建了一個命名實體識別與關(guān)系抽取系統(tǒng),并對抽取結(jié)果進行了可視化處理。該系統(tǒng)具有良好的擴展性、易用性,可以作為組件集成到其它信息系統(tǒng)中,有較高的應(yīng)用價值。 此外,在關(guān)系抽取方法選擇上,本文設(shè)計了基于“依賴動詞”、“核心介詞”、“所有格”這三種算法來實現(xiàn)關(guān)系抽取。利用詞性、語法解析結(jié)構(gòu)等語義特征,使得系統(tǒng)可以處理共指消解等較復(fù)雜狀況。實驗結(jié)果表明,本文提出的算法提高了實體識別與關(guān)系抽取的準(zhǔn)確性,取得了良好的效果,而且系統(tǒng)使用了基于Java的Web框架來構(gòu)建,使系統(tǒng)具有了方便移植的特點。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 奚斌;周國棟;錢龍華;潘珅;;基于分層策略的弱指導(dǎo)語義關(guān)系抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2008年01期
2 張玥杰;徐智婷;薛向陽;;融合多特征的最大熵漢語命名實體識別模型[J];計算機研究與發(fā)展;2008年06期
3 王苑;徐德智;陳建二;;復(fù)雜中文文本的實體關(guān)系抽取研究[J];計算機科學(xué);2009年08期
4 薛為民,石志國,王志良;基于隱馬爾可夫模型的復(fù)雜數(shù)據(jù)挖掘?qū)崿F(xiàn)[J];計算機工程;2003年09期
5 何海蕓,包云崗,袁春風(fēng);領(lǐng)域概念語義關(guān)系類型的半自動提取技術(shù)[J];計算機工程;2005年18期
6 鄧擘;樊孝忠;楊立公;;用語義模式提取實體關(guān)系的方法[J];計算機工程;2007年10期
7 何召衛(wèi);陳俊亮;;基于本體關(guān)系匹配的信息抽取[J];計算機工程;2007年21期
8 吳剛;張闊;李涓子;王克宏;;利用相互增強關(guān)系迭代計算本體中概念與關(guān)系的重要性[J];計算機學(xué)報;2007年09期
9 王丹;樊興華;;面向短文本的命名實體識別[J];計算機應(yīng)用;2009年01期
10 胡熠;陸汝占;劉慧;;面向信息檢索的概念關(guān)系自動構(gòu)建[J];中文信息學(xué)報;2007年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 錢龍華;命名實體間語義關(guān)系抽取研究[D];蘇州大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 徐東興;基于Gate框架的信息抽取系統(tǒng)的研究與實現(xiàn)[D];華東師范大學(xué);2007年
2 史玉翡;用于信息抽取的自動標(biāo)注技術(shù)研究[D];大連海事大學(xué);2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 于璐;;本體化可信完整性度量策略匹配模型[J];信息安全與技術(shù);2011年04期
2 劉椿年,宋霞;基于Boosting的半結(jié)構(gòu)化信息抽取[J];北京工業(yè)大學(xué)學(xué)報;2005年02期
3 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期
4 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2011年01期
5 李紹英;;基于代理技術(shù)的比較購物研究[J];當(dāng)代經(jīng)理人;2006年10期
6 孫鐵利;教巍巍;劉淑華;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
7 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期
8 劉軍;;基于支持向量機的網(wǎng)頁主題信息提取算法[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年02期
9 李向陽,陸建江,張亞非;基于競爭分類的Web信息抽取[J];電子學(xué)報;2004年11期
10 柳佳剛;劉高嵩;賀令亞;陳山;;基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J];福建電腦;2007年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學(xué)會2007年學(xué)術(shù)交流年會論文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
6 費玉蓮;凌云;王勛;;基于增強隱馬爾可夫模型的視頻數(shù)據(jù)挖掘研究[A];全國第16屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2004年
7 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計算的信息抽取模板自動獲取方法[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
8 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動學(xué)習(xí)方法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
9 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
3 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 仲兆滿;事件本體及其在查詢擴展中的應(yīng)用[D];上海大學(xué);2011年
5 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年
6 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年
7 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
9 朱倩;面向自由文本的細粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年
10 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 樊敬川;Deep Web數(shù)據(jù)庫的選擇研究[D];河北大學(xué);2009年
2 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學(xué);2010年
3 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
4 王東亮;基于條件隨機場模型的中文人名識別的研究[D];大連理工大學(xué);2010年
5 紅霞;基于層疊條件隨機場的中文機構(gòu)名識別的研究[D];大連理工大學(xué);2010年
6 李小紅;基于自舉的弱指導(dǎo)中文語義關(guān)系抽取研究[D];蘇州大學(xué);2010年
7 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學(xué);2010年
8 楊曉東;中文命名實體識別及若干相關(guān)問題的研究[D];江蘇大學(xué);2010年
9 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年
10 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長春工業(yè)大學(xué);2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期
2 張俐,李晶皎,胡明涵,姚天順;中文WordNet的研究及實現(xiàn)[J];東北大學(xué)學(xué)報;2003年04期
3 樊興華;王鵬;;基于兩步策略的中文短文本分類研究[J];大連海事大學(xué)學(xué)報;2008年03期
4 宋東風(fēng);張志浩;;短文本數(shù)據(jù)的自動分類[J];電腦與信息技術(shù);2007年01期
5 徐建斌,施亞東;基于概念的文本自動分類研究的綜述[J];福建電腦;2005年02期
6 陳曉明,周渝;基于知網(wǎng)的文本標(biāo)注[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2001年03期
7 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進展[J];河北大學(xué)學(xué)報(自然科學(xué)版);2003年01期
8 魏順平;何克抗;;基于文本挖掘的領(lǐng)域本體半自動構(gòu)建方法研究——以教學(xué)設(shè)計學(xué)科領(lǐng)域本體建設(shè)為例[J];開放教育研究;2008年05期
9 周雅倩,郭以昆,黃萱菁,吳立德;基于最大熵方法的中英文基本名詞短語識別[J];計算機研究與發(fā)展;2003年03期
10 李珩,朱靖波,姚天順;基于Stacking算法的組合分類器及其應(yīng)用于中文組塊分析[J];計算機研究與發(fā)展;2005年05期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 廖先桃;于海濱;秦兵;劉挺;;HMM與自動規(guī)則提取相結(jié)合的中文命名實體識別[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李錦姬;現(xiàn)代漢語補語研究[D];復(fù)旦大學(xué);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 魏庭新;現(xiàn)代漢語介詞結(jié)構(gòu)位置的考察及影響其位置的句法、語義因素分析[D];北京語言大學(xué);2004年
2 王瑩瑩;漢語組塊識別的研究[D];大連理工大學(xué);2006年
3 向曉雯;基于條件隨機場的中文命名實體識別[D];廈門大學(xué);2006年
4 郭銀蕊;基于遺傳算法的Web信息抽取技術(shù)[D];大連海事大學(xué);2009年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張曉艷;王挺;陳火旺;;基于混合統(tǒng)計模型的漢語命名實體識別方法[J];計算機工程與科學(xué);2006年06期
2 葛金虎;;基于條件隨機場的中文命名實體識別的研究[J];科技信息;2010年16期
3 李中言,李普躍;信息抽取方法綜述[J];廊坊師范學(xué)院學(xué)報;2005年03期
4 劉海鵬;王小捷;;基于條件隨機場和知識庫的手機短信命名實體識別[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
5 李桂蘭;余正濤;毛存禮;郭劍毅;侯波;線巖團;;旅游領(lǐng)域?qū)嶓w答案的抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
6 佘俊;張學(xué)清;;音樂命名實體識別方法[J];計算機應(yīng)用;2010年11期
7 金明;楊歡歡;單廣榮;;藏語命名實體識別研究[J];西北民族大學(xué)學(xué)報(自然科學(xué)版);2010年03期
8 邱莎;;幾種基于機器學(xué)習(xí)的生物命名實體識別模型比較[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年05期
9 林旭東;彭宏;林丕源;鄧健爽;;基于依存關(guān)系的問句理解與問句分類[J];計算機科學(xué);2007年07期
10 許曉麗;盧志茂;張格森;;基于條件隨機場的中文命名實體識別研究[J];中國新技術(shù)新產(chǎn)品;2009年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 董俊林;聶偉;楊君英;張春爐;;命名實體識別與提取分析[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年
2 李渝勤;孫麗華;;面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
3 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術(shù)研究與實現(xiàn)[A];全國計算機安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
4 齊振宇;趙軍;楊帆;;一種開放式中文命名實體識別的新方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
5 翟海軍;郭嘉豐;王小磊;許洪波;;基于用戶查詢?nèi)罩镜拿麑嶓w挖掘[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
6 向曉雯;史曉東;曾華琳;;一個統(tǒng)計與規(guī)則相結(jié)合的中文命名實體識別系統(tǒng)[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年
7 陳禹;史曉東;向曉雯;張潤延;;基于混合方法的中文命名實體識別[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
8 張祝玉;任飛亮;朱靖波;;基于條件隨機場的中文命名實體識別特征比較研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
9 俞鴻魁;張華平;劉群;呂學(xué)強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會'2005論文集(下冊)[C];2005年
10 李彥鵬;楊志豪;林鴻飛;;基于條件隨機域的生物醫(yī)學(xué)命名實體識別[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 江會星;漢語命名實體識別研究[D];北京郵電大學(xué);2012年
2 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國礦業(yè)大學(xué)(北京);2013年
3 豆增發(fā);生物命名實體識別及生物文本分類[D];西安電子科技大學(xué);2013年
4 羅芳;意見挖掘中若干關(guān)鍵問題研究[D];武漢理工大學(xué);2011年
5 李彥鵬;特征耦合泛化及其在文體挖掘中的應(yīng)用[D];大連理工大學(xué);2011年
6 楊黎;面向生物醫(yī)學(xué)文本的疾病關(guān)系挖掘模型及算法研究[D];華中科技大學(xué);2013年
7 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年
8 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
9 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年
10 陳慧;基于DCC動態(tài)流通語料庫的中文組織名考察與研究[D];北京語言大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周昆;基于規(guī)則的命名實體識別研究[D];合肥工業(yè)大學(xué);2010年
2 孫靜;基于組合分類器的生物命名實體識別[D];大連理工大學(xué);2010年
3 孟迎;基于統(tǒng)計的機器學(xué)習(xí)的中文命名實體識別[D];昆明理工大學(xué);2004年
4 江超男;面向社會網(wǎng)絡(luò)應(yīng)用的關(guān)系抽取研究[D];南京理工大學(xué);2010年
5 陳揚;基于命名實體識別的學(xué)科智能答疑模型研究[D];東北師范大學(xué);2010年
6 王江偉;基于最大熵模型的中文命名實體識別[D];南京理工大學(xué);2005年
7 張曉艷;基于混合統(tǒng)計模型的漢語命名實體識別方法的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2004年
8 向曉雯;基于條件隨機場的中文命名實體識別[D];廈門大學(xué);2006年
9 陳禹;基于語篇的中文命名實體識別研究[D];廈門大學(xué);2008年
10 俞鴻魁;基于層次隱馬爾可夫模型的漢語詞法分析和命名實體識別技術(shù)[D];北京化工大學(xué);2004年
本文關(guān)鍵詞:面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:107663
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/107663.html