基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)
本文關(guān)鍵詞:智能搜索引擎中的同義詞識別算法研究,由筆耕文化傳播整理發(fā)布。
《北京工業(yè)大學(xué)》 2003年
基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)
王明燕
【摘要】: 關(guān)鍵詞技術(shù)是文本信息處理的一項重要技術(shù)。目前,由于計算機(jī)在自然語言理解方面還有很大的不足,關(guān)鍵詞提取是在進(jìn)行文本自動摘要、文本自動分類、主題詞提取、主題提取等凡是涉及到文本信息理解的工作時,都要應(yīng)用到的一項關(guān)鍵技術(shù)。 本論文詳細(xì)介紹了一種基于Web頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)及其實(shí)驗系統(tǒng)的設(shè)計與實(shí)現(xiàn),并對該技術(shù)在搜索引擎中的應(yīng)用進(jìn)行了探討。論文的核心內(nèi)容包含以下三部分: 首先,關(guān)鍵詞提取系統(tǒng)介紹。圍繞著Web頁面的特殊性開始,依據(jù)Web頁面不同于一般文本的特殊性,介紹了一種基于Web頁面的關(guān)鍵詞提取技術(shù)。該技術(shù)的實(shí)現(xiàn)充分利用了Web頁面中的各種標(biāo)記。 然后,關(guān)鍵概念提取系統(tǒng)介紹。語言是一種不斷發(fā)展的文化,新概念層出不窮,同時還存在很多人名、地名、機(jī)構(gòu)名等專有名詞。這些概念的存在影響了關(guān)鍵詞的提取質(zhì)量。從常用的N元語法入手,,分析該方法存在的問題——N元截斷效應(yīng),提出了一種基于上下文和互信息的關(guān)鍵概念提取方法。該方法的實(shí)現(xiàn)克服了N元算法的截斷效應(yīng),實(shí)現(xiàn)了可變長的概念提取方法。同時,本文又結(jié)合規(guī)則選詞的方法,對提取結(jié)果進(jìn)行了優(yōu)化,取得較好的實(shí)驗效果。 最后,論文對該技術(shù)在搜索引擎中的應(yīng)用在理論進(jìn)行了簡單的探討。通過對搜索引擎中“相關(guān)性(系統(tǒng)角度的相關(guān)性與用戶角度的相關(guān)性)”問題的分析,提出了一種改進(jìn)的系統(tǒng)角度的“相關(guān)性”模型,并對該模型的系統(tǒng)實(shí)現(xiàn)進(jìn)行了構(gòu)想與設(shè)計。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2003
【分類號】:TP393.092
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹玉娟;牛振東;趙堃;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法[J];軟件學(xué)報;2011年08期
2 盧轉(zhuǎn)華;;概念圖的網(wǎng)絡(luò)導(dǎo)航分析[J];牡丹江教育學(xué)院學(xué)報;2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 ;關(guān)于摘要和關(guān)鍵詞的說明[A];中國人民解放軍醫(yī)學(xué)會第九屆放射診療專業(yè)學(xué)會論文集[C];2005年
2 李玉亭;溫智虹;姜瑩;;重視科技論文摘要的撰寫 提高關(guān)鍵詞的準(zhǔn)確性[A];中國地震學(xué)會第十次學(xué)術(shù)大會論文摘要專集[C];2004年
3 ;規(guī)范關(guān)鍵詞選擇的決定(試行)[A];薄膜技術(shù)學(xué)術(shù)研討會論文集[C];2003年
4 ;化學(xué)與社會論壇[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年
5 ;生命科學(xué)中的分析化學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年
6 ;化學(xué)生物學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年
7 ;化學(xué)信息學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年
8 陳儒;張宇;劉挺;;面向網(wǎng)絡(luò)實(shí)時數(shù)據(jù)流的中文信息多模式模糊匹配[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會’2004論文集[C];2004年
9 ;理論化學(xué)、計算與模擬化學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年
10 張建方;;試驗設(shè)計中五個關(guān)鍵詞的翻譯問題[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 何飛;[N];政府采購信息報;2005年
2 記者 毛紹清;[N];西南電力報;2005年
3 ;[N];電腦報;2005年
4 偉成;[N];中國鄉(xiāng)鎮(zhèn)企業(yè)報;2005年
5 ;[N];中國企業(yè)報;2005年
6 陳磊 張顯峰 李麗云;[N];科技日報;2005年
7 記者 周哲 謝季宏;[N];重慶商報;2005年
8 本報記者 侯曉軒;[N];計算機(jī)世界;2005年
9 本報記者 劉猛;[N];證券時報;2000年
10 中國光大銀行 林虹;[N];中國證券報;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 洪國彬;基于隨機(jī)Petri網(wǎng)的企業(yè)業(yè)務(wù)流程重組的理論與優(yōu)化方法研究[D];天津大學(xué);2003年
2 衛(wèi)軍英;整合營銷傳播觀念及其理論構(gòu)架[D];浙江大學(xué);2005年
3 衛(wèi)軍英;整合營銷傳播觀念的理論建構(gòu)[D];浙江大學(xué);2007年
4 方攀峰;爪蟾肌肉發(fā)生過程中xTbx6 基因的功能和相應(yīng)的上下游分子機(jī)制的研究[D];中國科學(xué)院研究生院(上海生命科學(xué)研究院);2004年
5 張艷梅;海派市民小說與現(xiàn)代倫理敘事[D];東北師范大學(xué);2004年
6 黃漢平;拉康與后現(xiàn)代文化批評[D];暨南大學(xué);2004年
7 李思捷;身份書寫與跨文化心態(tài)透視[D];暨南大學(xué);2003年
8 鄒西峰;骨髓源干細(xì)胞在損傷腦組織中遷移和分化的研究[D];第一軍醫(yī)大學(xué);2004年
9 金建軍;血管內(nèi)皮生長因子在膀胱腫瘤血、尿中的表達(dá)和反義基因治療的研究[D];復(fù)旦大學(xué);2003年
10 張大江;經(jīng)導(dǎo)管肝動脈熱碘油栓塞治療原發(fā)性肝癌機(jī)理研究[D];復(fù)旦大學(xué);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王明燕;基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)[D];北京工業(yè)大學(xué);2003年
2 陳偉雄;基于元搜索的中文搜索引擎研究與實(shí)現(xiàn)[D];清華大學(xué);2004年
3 何均洪;[D];電子科技大學(xué);2004年
4 郭麗娜;俄語廣告語的民族文化特性研究[D];華中師范大學(xué);2007年
5 何念慈;Internet上的教學(xué)資源搜索系統(tǒng)的研究與實(shí)現(xiàn)[D];暨南大學(xué);2000年
6 王鋒;《古詩十九首》的言“情”藝術(shù)[D];西北大學(xué);2000年
7 徐艷英;科研論文英文文摘及其寫作[D];長春理工大學(xué);2004年
8 朱毅華;智能搜索引擎中的同義詞識別算法研究[D];南京農(nóng)業(yè)大學(xué);2001年
9 陳威;生脈注射液對血流動力學(xué)及血管因子影響作用的研究[D];軍醫(yī)進(jìn)修學(xué)院;2001年
10 袁莉;1925年:關(guān)于魯迅的四個關(guān)鍵詞[D];西南師范大學(xué);2003年
本文關(guān)鍵詞:智能搜索引擎中的同義詞識別算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:214411
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/214411.html