基于興趣點簡稱的檢索方法研究
[Abstract]:In this paper, a matching model based on statistical method and participle is proposed, which can find the most likely full name according to the abbreviation. The model consists of three parts: for different categories of full names, the full term of interest point is classified into five types of words: organization, company, industry, region and unknown; The words are divided into six categories according to their length, and then a hidden Markov statistical model is established on the basis of which a statistical model of popularity is established under the assumption that the more frequently used full names are more likely to produce abbreviations, the more frequent they are used, the more likely they are to produce abbreviations. The experimental results show that the first choice accuracy of the model is nearly 85%, which is significantly higher than the matching ability of the existing search engines.
【作者單位】: 北京大學遙感與地理信息研究所空間智能計算實驗室;
【基金】:國家重點研究基礎發(fā)展規(guī)劃(973)項目(2006CB70130000)
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前3條
1 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術[J];計算機應用;2004年07期
2 王寧,葛瑞芳,苑春法,黃錦輝,李文捷;中文金融新聞中公司名的識別[J];中文信息學報;2002年02期
3 鐘良伍;鄭方;;基于中文機構名簡稱的檢索方法研究[J];中文信息學報;2007年01期
【共引文獻】
相關期刊論文 前10條
1 邵晶,黨海峰,白慧先,鄭慶華;OPAC資源與網(wǎng)絡教育資源共享集成關鍵技術研究[J];大學圖書館學報;2005年03期
2 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期
3 謝春發(fā);中文智能搜索引擎的研究與探討[J];河北廣播電視大學學報;2005年04期
4 莊明,老松楊,吳玲達;一種統(tǒng)計和詞性相結合的命名實體發(fā)現(xiàn)方法[J];計算機應用;2004年01期
5 肖紅;許少華;李欣;;具有三級索引詞庫結構的中文分詞方法研究[J];計算機應用研究;2006年08期
6 鐘良伍;鄭方;;基于中文機構名簡稱的檢索方法研究[J];中文信息學報;2007年01期
7 方冰;張一中;;高性能FTP搜索引擎的設計[J];南京郵電大學學報(自然科學版);2007年03期
8 唐培麗;胡明;解飛;劉鋼;;全文檢索搜索引擎中文信息處理技術研究[J];情報科學;2006年06期
9 郭一平;向暉;王亮;;基于Lucene的Ftp搜索引擎的設計[J];圖書情報工作;2006年04期
10 俞鴻魁;張華平;劉群;呂學強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[J];通信學報;2006年02期
相關會議論文 前9條
1 俞鴻魁;張華平;劉群;呂學強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[A];全國網(wǎng)絡與信息安全技術研討會'2005論文集(下冊)[C];2005年
2 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學習方法在中文機構名識別中的應用[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
3 俞鴻魁;張華平;劉群;;基于角色標注的中文機構名識別[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
4 李斌;;中文單字國名簡稱的自動識別[A];第二屆全國學生計算語言學研討會論文集[C];2004年
5 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結合的案件名稱識別[A];第三屆學生計算語言學研討會論文集[C];2006年
6 鄭家恒;譚紅葉;王興義;;基于模式匹配的中文專有名詞識別[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
7 陳慧;張普;;基于DCC動態(tài)流通語料庫的中文組織名監(jiān)測與研究[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
8 徐薇;付濱;劉柳;苑春法;李文捷;;中文命名實體識別系統(tǒng)的領域擴展[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
9 王虎;王潛平;;對整詞二分自動分詞機制的改進[A];中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年
相關博士學位論文 前2條
1 孫越恒;基于統(tǒng)計的NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
2 姜韶華;科研項目管理中的文本挖掘方法研究及應用[D];大連理工大學;2006年
相關碩士學位論文 前10條
1 張艷麗;中文機構名稱的自動識別[D];大連理工大學;2003年
2 俞鴻魁;基于層次隱馬爾可夫模型的漢語詞法分析和命名實體識別技術[D];北京化工大學;2004年
3 莊明;裝備發(fā)展戰(zhàn)略研究信息化平臺中漢語文本信息提取技術的研究[D];國防科學技術大學;2003年
4 王軍;中文搜索引擎的設計與實現(xiàn)[D];華中科技大學;2004年
5 王興義;基于模式匹配的中文專有名詞識別[D];山西大學;2005年
6 王江偉;基于最大熵模型的中文命名實體識別[D];南京理工大學;2005年
7 吳雪軍;面向信息抽取的命名實體識別與模板獲取技術研究[D];東北大學;2005年
8 朱軍;中文垃圾郵件過濾技術研究及應用[D];合肥工業(yè)大學;2005年
9 崔飛虎;一種多Agent的個性化信息檢索系統(tǒng)的研究與設計[D];中國人民解放軍信息工程大學;2005年
10 張曉淼;基于神經網(wǎng)絡的中文分詞算法的研究[D];大連理工大學;2006年
【二級參考文獻】
相關期刊論文 前4條
1 嚴威,趙政;開發(fā)中文搜索引擎漢語處理的關鍵技術[J];計算機工程;1999年06期
2 王寧,葛瑞芳,苑春法,黃錦輝,李文捷;中文金融新聞中公司名的識別[J];中文信息學報;2002年02期
3 張小衡,王玲玲;中文機構名稱的識別與分析[J];中文信息學報;1997年04期
4 王科,高常波,翟雪峰,羅萬伯;漢語分詞的主要技術及其應用展望[J];通信技術;2003年06期
相關會議論文 前2條
1 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計和規(guī)則相結合的中文機構名稱識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年
2 雷靜;;漢語機構名的構成模式[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
【相似文獻】
相關期刊論文 前10條
1 ;中國微生物學會常務理事擴大會在北京召開[J];微生物學通報;1980年06期
2 魚際元;;“感光材料專業(yè)外文文獻查閱”補遺[J];影像材料;1980年01期
3 馬丁;;漫畫慢畫——諷刺劇[J];新聞戰(zhàn)線;1980年04期
4 左民安;;《說文解字·敘》標點商榷[J];學術月刊;1980年08期
5 劉士釗;;德溫特公司的專利檢索刊物[J];情報科學;1980年01期
6 ;小辭典[J];中國檔案;1980年02期
7 伍同;;新型修裱漿糊——羧甲基纖維素[J];中國檔案;1980年05期
8 朱伯深;;紅中社之前的中國工人通訊社[J];新聞與傳播研究;1980年02期
9 華湘翰;介紹《美國化學文摘》查閱法[J];現(xiàn)代化工;1981年05期
10 朱開發(fā);用萬用表檢查雙向可控硅的方法[J];廣播與電視技術;1981年01期
相關重要報紙文章 前6條
1 廖波;“貴輪”公司簡稱打敗注冊商標[N];商務時報;2009年
2 本報記者 張恒瑞;高校簡稱起爭議 商標注冊誰更當之無愧?[N];中國消費者報;2009年
3 本報記者 吳曉婧;證監(jiān)會規(guī)范基金命名 新簡稱已啟用[N];上海證券報;2009年
4 楊沛潔 楊躍彬;中平能化集團成為企業(yè)法定簡稱[N];平頂山日報;2009年
5 本報記者 張恒瑞;專家呼吁:企業(yè)不應忽視品牌簡稱保護[N];中國消費者報;2009年
6 記者 韓勁松;市政府工作機構及簡稱公布[N];濟南日報;2010年
,本文編號:2457801
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2457801.html