專利信息檢索系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2023-01-25 20:48
專利信息在當(dāng)前社會是首選的競爭情報資源,它蘊含著巨大的知識存量。充分挖掘和利用專利信息有助于技術(shù)人員改進現(xiàn)有技術(shù),發(fā)現(xiàn)新的技術(shù)領(lǐng)域。然而當(dāng)前專利數(shù)量急劇增長,依靠人工手段尋找有用專利信息,并進行快速有效的專利分析,幾乎是不可能的。 專利信息檢索系統(tǒng)就是為了幫助大家在眾多的專利資源中找到自己需要的資源。專利信息檢索的精確度和準(zhǔn)全率和索引文件所依賴的詞典庫有著直接而重要的關(guān)系。如果詞典庫能包含專利信息中所有的詞匯,那專利檢索的精確度和準(zhǔn)全率一定很高。本文中我們將介紹一種術(shù)語抽取技術(shù),用哈工大計算機學(xué)院智能技術(shù)與自然語言處理研究室的詞典文件作為一般詞典庫,從專利原始資料中抽取出專業(yè)術(shù)語,形成術(shù)語詞典庫。一般詞典庫和術(shù)語詞典庫共同作為生成索引文件的詞典庫。 考慮到專利的原始文本信息量非常之大,在生成術(shù)語詞典庫的過程中,幾個比較關(guān)鍵的算法:后綴數(shù)組、取重復(fù)串和互信息,采用了C語言作為算法的開發(fā)語言,C語言的算法可以做到比較高的速度讀取文本,并且支持大文件的操作;而在專利檢索業(yè)務(wù),我們采用B/S的架構(gòu),采用Java語言作為上層業(yè)務(wù)的開發(fā)語言。在術(shù)語詞典庫的生成過程中。 最后,設(shè)計...
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景
1.2 關(guān)鍵技術(shù)
1.3 技術(shù)目標(biāo)
1.4 主要研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 術(shù)語抽取
2.1 術(shù)語抽取中的幾個關(guān)鍵技術(shù)
2.1.1 讀取文本
2.1.2 后綴數(shù)組
2.1.3 取重復(fù)串
2.1.4 互信息
2.2 小結(jié)
第三章 檢索實現(xiàn)
3.1 Lucene簡介
3.1.1 基于Java的全文檢索引擎簡介
3.1.2 全文檢索的實現(xiàn)機制
3.1.3 與其他檢索系統(tǒng)的比較
3.2 系統(tǒng)中對Lucene的改造
3.2.1 建立索引文件的改造
3.2.2 對檢索關(guān)鍵字增加優(yōu)先級的支持
3.3 小結(jié)
第四章 系統(tǒng)設(shè)計及實現(xiàn)
4.1 系統(tǒng)結(jié)構(gòu)
4.2 系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)
4.3 系統(tǒng)基本功能
4.4 系統(tǒng)界面
4.5 小結(jié)
第五章 總結(jié)與展望
5.1 研究工作及成果總結(jié)
5.2 進一步研究方向
參考文獻
致謝
【參考文獻】:
期刊論文
[1]句子相似度計算新方法及在問答系統(tǒng)中的應(yīng)用[J]. 周法國,楊炳儒. 計算機工程與應(yīng)用. 2008(01)
[2]基于多層次融合的語句相似度計算模型[J]. 南鉉國,崔榮一. 延邊大學(xué)學(xué)報(自然科學(xué)版). 2007(03)
[3]領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J]. 劉桃,劉秉權(quán),徐志明,王曉龍. 電子學(xué)報. 2007(02)
[4]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機應(yīng)用. 2005(09)
[5]領(lǐng)域本體中的概念相似度計算[J]. 朱禮軍,陶蘭,劉慧. 華南理工大學(xué)學(xué)報(自然科學(xué)版). 2004(S1)
[6]基于圖像內(nèi)容的外觀專利自動檢索系統(tǒng)[J]. 方驥,戴青云. 計算機工程與應(yīng)用. 2004(34)
[7]面向Internet的中文新詞語檢測[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報. 2004(06)
[8]基于語義關(guān)系查詢擴展的文檔重構(gòu)方法[J]. 張敏,宋睿華,馬少平. 計算機學(xué)報. 2004(10)
[9]動詞與動詞搭配類型的自動標(biāo)注方法[J]. 白妙青,鄭家恒. 山西大學(xué)學(xué)報(自然科學(xué)版). 2004(01)
[10]自然語言文檔復(fù)制檢測研究綜述[J]. 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹. 軟件學(xué)報. 2003(10)
碩士論文
[1]信息檢索中的查詢擴展算法研究[D]. 李大高.江蘇大學(xué) 2008
[2]基于頻繁模式的消息文本聚類研究[D]. 胡吉祥.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
本文編號:3731776
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景
1.2 關(guān)鍵技術(shù)
1.3 技術(shù)目標(biāo)
1.4 主要研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 術(shù)語抽取
2.1 術(shù)語抽取中的幾個關(guān)鍵技術(shù)
2.1.1 讀取文本
2.1.2 后綴數(shù)組
2.1.3 取重復(fù)串
2.1.4 互信息
2.2 小結(jié)
第三章 檢索實現(xiàn)
3.1 Lucene簡介
3.1.1 基于Java的全文檢索引擎簡介
3.1.2 全文檢索的實現(xiàn)機制
3.1.3 與其他檢索系統(tǒng)的比較
3.2 系統(tǒng)中對Lucene的改造
3.2.1 建立索引文件的改造
3.2.2 對檢索關(guān)鍵字增加優(yōu)先級的支持
3.3 小結(jié)
第四章 系統(tǒng)設(shè)計及實現(xiàn)
4.1 系統(tǒng)結(jié)構(gòu)
4.2 系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)
4.3 系統(tǒng)基本功能
4.4 系統(tǒng)界面
4.5 小結(jié)
第五章 總結(jié)與展望
5.1 研究工作及成果總結(jié)
5.2 進一步研究方向
參考文獻
致謝
【參考文獻】:
期刊論文
[1]句子相似度計算新方法及在問答系統(tǒng)中的應(yīng)用[J]. 周法國,楊炳儒. 計算機工程與應(yīng)用. 2008(01)
[2]基于多層次融合的語句相似度計算模型[J]. 南鉉國,崔榮一. 延邊大學(xué)學(xué)報(自然科學(xué)版). 2007(03)
[3]領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J]. 劉桃,劉秉權(quán),徐志明,王曉龍. 電子學(xué)報. 2007(02)
[4]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機應(yīng)用. 2005(09)
[5]領(lǐng)域本體中的概念相似度計算[J]. 朱禮軍,陶蘭,劉慧. 華南理工大學(xué)學(xué)報(自然科學(xué)版). 2004(S1)
[6]基于圖像內(nèi)容的外觀專利自動檢索系統(tǒng)[J]. 方驥,戴青云. 計算機工程與應(yīng)用. 2004(34)
[7]面向Internet的中文新詞語檢測[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報. 2004(06)
[8]基于語義關(guān)系查詢擴展的文檔重構(gòu)方法[J]. 張敏,宋睿華,馬少平. 計算機學(xué)報. 2004(10)
[9]動詞與動詞搭配類型的自動標(biāo)注方法[J]. 白妙青,鄭家恒. 山西大學(xué)學(xué)報(自然科學(xué)版). 2004(01)
[10]自然語言文檔復(fù)制檢測研究綜述[J]. 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹. 軟件學(xué)報. 2003(10)
碩士論文
[1]信息檢索中的查詢擴展算法研究[D]. 李大高.江蘇大學(xué) 2008
[2]基于頻繁模式的消息文本聚類研究[D]. 胡吉祥.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
本文編號:3731776
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/3731776.html
最近更新
教材專著