中文文本中實(shí)體數(shù)值型關(guān)系無監(jiān)督抽取方法
本文關(guān)鍵詞:中文文本中實(shí)體數(shù)值型關(guān)系無監(jiān)督抽取方法,由筆耕文化傳播整理發(fā)布。
【摘要】:中文實(shí)體間的數(shù)值型關(guān)系抽取有著廣泛的應(yīng)用前景,目前常用的實(shí)體關(guān)系抽取一般采用有監(jiān)督抽取方法,且多用于短文本和簡單句,并不適合處理海量復(fù)雜句.針對來自于網(wǎng)絡(luò)的大量復(fù)雜文本,本文提出了一種中文實(shí)體數(shù)值型關(guān)系的無監(jiān)督抽取方法.在中文分詞、詞性標(biāo)注等自然語言處理結(jié)果的基礎(chǔ)上,首先經(jīng)過句式分析并采用選擇樹算法構(gòu)建候選集,接著利用Jaro-Winkler距離進(jìn)行候選集篩選,最后抽取得到數(shù)值型三元組關(guān)系.本文在鋼鐵、船舶、房地產(chǎn)3個(gè)行業(yè)的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,該方法抽取中文實(shí)體數(shù)值型關(guān)系是有效的.
【作者單位】: 武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室;武漢科技大學(xué)管理學(xué)院;
【關(guān)鍵詞】: 實(shí)體關(guān)系抽取 無監(jiān)督 數(shù)值型三元組 信息抽取
【基金】:國家社會科學(xué)基金重大項(xiàng)目(11&ZD189) 湖北省自然科學(xué)基金面上項(xiàng)目(2015CFB564) 湖北省教育廳科學(xué)技術(shù)研究計(jì)劃指導(dǎo)性項(xiàng)目(B2016010)資助
【分類號】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)信息爆炸式增長,人們迫切需要從海量數(shù)據(jù)中獲取有價(jià)值的信息.傳統(tǒng)行業(yè)在應(yīng)對當(dāng)前的市場環(huán)境時(shí),更需要擁抱互聯(lián)網(wǎng),需要從互聯(lián)網(wǎng)信息中分析當(dāng)前行業(yè)市場發(fā)展前景.互聯(lián)網(wǎng)上的大量信息都是非結(jié)構(gòu)化的電子文本,如新聞、博客、政府文件等,這些文本中含有大量的數(shù)值信
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 劉倩;伍大勇;劉悅;程學(xué)旗;龐琳;;結(jié)合全局特征的命名實(shí)體屬性值抽取[J];計(jì)算機(jī)研究與發(fā)展;2016年04期
2 郭喜躍;何婷婷;胡小華;陳前軍;;基于句法語義特征的中文實(shí)體關(guān)系抽取[J];中文信息學(xué)報(bào);2014年06期
3 鐘浪生;;補(bǔ)語的認(rèn)識與分析[J];語文教學(xué)通訊·D刊(學(xué)術(shù)刊);2014年07期
4 賈真;楊宇飛;何大可;劉勝久;尹紅風(fēng);;面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
5 陳立瑋;馮巖松;趙東巖;;基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J];計(jì)算機(jī)研究與發(fā)展;2013年09期
6 吳春相;;現(xiàn)代漢語介詞結(jié)構(gòu)的語體考察[J];當(dāng)代修辭學(xué);2013年04期
7 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何永強(qiáng);秦勤;王俊鵬;;基于深度神經(jīng)網(wǎng)絡(luò)的嵌入式向量及話題模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年12期
2 王華秋;殷志恒;;采用自適應(yīng)聚類的教學(xué)視頻關(guān)鍵幀研究[J];計(jì)算機(jī)時(shí)代;2016年12期
3 田馳遠(yuǎn);陳德華;王梅;樂嘉錦;;基于依存句法分析的病理報(bào)告結(jié)構(gòu)化處理方法[J];計(jì)算機(jī)研究與發(fā)展;2016年12期
4 王亞民;胡悅;;基于BTM的微博輿情熱點(diǎn)發(fā)現(xiàn)[J];情報(bào)雜志;2016年11期
5 王華秋;聶珍;;快速搜索密度峰值聚類在圖像檢索中的應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年11期
6 朱林;;基于Web的主題內(nèi)容提取與存儲系統(tǒng)研究[J];軟件;2016年11期
7 吳勝;劉茂福;胡慧君;張志清;顧進(jìn)廣;;中文文本中實(shí)體數(shù)值型關(guān)系無監(jiān)督抽取方法[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2016年06期
8 馬慧芳;曾憲桃;李曉紅;,
本文編號:482969
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/482969.html