基于網(wǎng)頁信息和分詞的中文機構(gòu)名全稱和簡稱提取方法
本文選題:機構(gòu)名簡稱提取 + 機構(gòu)名全稱提取。 參考:《計算機應(yīng)用研究》2017年04期
【摘要】:搜索引擎在處理全稱和簡稱的對應(yīng)關(guān)系時,以往只能通過人工添加,造成簡稱遺漏、搜索結(jié)果召回率低等問題。為此,提出了一種自動獲取機構(gòu)全稱和簡稱的方法。根據(jù)域名地址獲取機構(gòu)網(wǎng)站首頁源代碼,從中提取相應(yīng)機構(gòu)全稱,再結(jié)合機構(gòu)名上下文特征詞集合從中提取候選簡稱,最后計算候選簡稱與全稱的相似度確定最終簡稱。通過對1 287個組織機構(gòu)網(wǎng)站的實驗,全稱提取正確率達93.9%,簡稱召回率和正確率分別達85.3%和90.8%,實驗表明該方法效果良好。
[Abstract]:When the search engine deals with the corresponding relationship between full name and abbreviation, it can only be added manually in the past, resulting in short name omission, low recall rate of search results, and so on.Therefore, an automatic method for obtaining the full name and abbreviation of the mechanism is proposed.According to the source code of the first page of the website of the agency, the full name of the corresponding organization is extracted from the source code of the domain name address, and then the candidate abbreviation is extracted from the set of contextual features of the organization name, and the similarity between the candidate abbreviation and the full name is calculated finally.Through the experiments on 1 287 websites of organizations, the correct rate of full name extraction is 93.9, and the recall rate and accuracy rate are 85.3% and 90.8%, respectively. The experiment shows that the method is effective.
【作者單位】: 中國科學(xué)院大學(xué);中國科學(xué)院計算機網(wǎng)絡(luò)信息中心;中國互聯(lián)網(wǎng)絡(luò)信息中心;
【基金】:國家自然科學(xué)基金資助項目(61375039,61272433)
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 王文軒;;基于構(gòu)成模式的部隊機構(gòu)名識別[J];現(xiàn)代計算機(專業(yè)版);2013年34期
2 劉杰;;基于統(tǒng)計的中文機構(gòu)名實體識別的研究[J];佳木斯大學(xué)學(xué)報(自然科學(xué)版);2010年03期
3 馮麗萍;;基于統(tǒng)計的中文組織機構(gòu)名識別[J];福建電腦;2006年01期
4 夏峗;李志蜀;;基于統(tǒng)計的中文機構(gòu)名自動識別[J];四川大學(xué)學(xué)報(自然科學(xué)版);2009年03期
5 鐘良伍;鄭方;;基于中文機構(gòu)名簡稱的檢索方法研究[J];中文信息學(xué)報;2007年01期
6 韋向峰;張全;吳晨;袁毅;;中文問答系統(tǒng)中機構(gòu)名的處理[J];計算機工程與應(yīng)用;2008年07期
7 麥合甫熱提;米日姑·肉孜;麥熱哈巴·艾力;吐爾根·依布拉音;;基于語法語義知識的維吾爾文機構(gòu)名識別[J];計算機工程與設(shè)計;2014年08期
8 馮麗萍;焦莉娟;;結(jié)合多特征的支持向量機中文組織機構(gòu)名識別模型[J];現(xiàn)代計算機(專業(yè)版);2010年07期
9 胡萬亭;楊燕;尹紅風(fēng);賈真;劉利;;一種基于詞頻統(tǒng)計的組織機構(gòu)名識別方法[J];計算機應(yīng)用研究;2013年07期
10 陳慧;;中文組織機構(gòu)名命名規(guī)范化問題芻議[J];人文叢刊;2011年00期
相關(guān)會議論文 前5條
1 金朝;蔣宗禮;;中文機構(gòu)名的識別討論[A];2011高等職業(yè)教育電子信息類專業(yè)學(xué)術(shù)暨教學(xué)研討會論文集[C];2011年
2 雷靜;;漢語機構(gòu)名的構(gòu)成模式[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
3 雷靜;張舵;馮霞;;基于構(gòu)成模式的漢語機構(gòu)名識別[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
4 計峰;高沫;邱錫鵬;黃萱菁;;中文機構(gòu)名簡稱的自動生成研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
5 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學(xué)習(xí)方法在中文機構(gòu)名識別中的應(yīng)用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
相關(guān)重要報紙文章 前5條
1 ;《全國文化機構(gòu)名址錄》面世[N];中國文化報;2003年
2 馬文;《全國文化機構(gòu)名址錄》出版[N];中國文化報;2001年
3 記者 王俐君 通訊員 歐志紅;湖南名址信息庫建設(shè)強力啟動[N];中國郵政報;2003年
4 記者 劉蘇;2000多件證書展示證書文化[N];徐州日報;2010年
5 記者 劉朝君;組織機構(gòu)名址庫年內(nèi)建成[N];中國郵政報;2003年
相關(guān)碩士學(xué)位論文 前10條
1 陳丹雙;POI(Point of Interest)名稱識別及其在對話導(dǎo)航系統(tǒng)中的應(yīng)用[D];復(fù)旦大學(xué);2013年
2 王樹偉;面向金融文本的實體識別與關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2014年
3 連譽舜;中文組織機構(gòu)名檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2013年
4 劉璐;基于潛在語義分析與多特征融合的中文機構(gòu)名識別[D];西北大學(xué);2016年
5 萬如;中文機構(gòu)名識別的研究[D];大連理工大學(xué);2008年
6 烏蘭敖日格樂;中文軍事組織機構(gòu)名的識別[D];大連理工大學(xué);2010年
7 凌雅娟;新聞文本中的中文機構(gòu)名識別和機構(gòu)關(guān)系抽取研究[D];華東師范大學(xué);2013年
8 紅霞;基于層疊條件隨機場的中文機構(gòu)名識別的研究[D];大連理工大學(xué);2010年
9 陳霄;基于支持向量機的中文組織機構(gòu)名識別[D];上海交通大學(xué);2007年
10 米日姑·肉孜;維吾爾文機構(gòu)名識別研究[D];新疆大學(xué);2013年
,本文編號:1773518
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1773518.html