基于WEB頁(yè)面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)
本文關(guān)鍵詞:智能搜索引擎中的同義詞識(shí)別算法研究,由筆耕文化傳播整理發(fā)布。
《北京工業(yè)大學(xué)》 2003年
基于WEB頁(yè)面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)
王明燕
【摘要】: 關(guān)鍵詞技術(shù)是文本信息處理的一項(xiàng)重要技術(shù)。目前,由于計(jì)算機(jī)在自然語(yǔ)言理解方面還有很大的不足,關(guān)鍵詞提取是在進(jìn)行文本自動(dòng)摘要、文本自動(dòng)分類、主題詞提取、主題提取等凡是涉及到文本信息理解的工作時(shí),都要應(yīng)用到的一項(xiàng)關(guān)鍵技術(shù)。 本論文詳細(xì)介紹了一種基于Web頁(yè)面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)及其實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),并對(duì)該技術(shù)在搜索引擎中的應(yīng)用進(jìn)行了探討。論文的核心內(nèi)容包含以下三部分: 首先,關(guān)鍵詞提取系統(tǒng)介紹。圍繞著Web頁(yè)面的特殊性開(kāi)始,依據(jù)Web頁(yè)面不同于一般文本的特殊性,介紹了一種基于Web頁(yè)面的關(guān)鍵詞提取技術(shù)。該技術(shù)的實(shí)現(xiàn)充分利用了Web頁(yè)面中的各種標(biāo)記。 然后,關(guān)鍵概念提取系統(tǒng)介紹。語(yǔ)言是一種不斷發(fā)展的文化,新概念層出不窮,同時(shí)還存在很多人名、地名、機(jī)構(gòu)名等專有名詞。這些概念的存在影響了關(guān)鍵詞的提取質(zhì)量。從常用的N元語(yǔ)法入手,,分析該方法存在的問(wèn)題——N元截?cái)嘈?yīng),提出了一種基于上下文和互信息的關(guān)鍵概念提取方法。該方法的實(shí)現(xiàn)克服了N元算法的截?cái)嘈?yīng),實(shí)現(xiàn)了可變長(zhǎng)的概念提取方法。同時(shí),本文又結(jié)合規(guī)則選詞的方法,對(duì)提取結(jié)果進(jìn)行了優(yōu)化,取得較好的實(shí)驗(yàn)效果。 最后,論文對(duì)該技術(shù)在搜索引擎中的應(yīng)用在理論進(jìn)行了簡(jiǎn)單的探討。通過(guò)對(duì)搜索引擎中“相關(guān)性(系統(tǒng)角度的相關(guān)性與用戶角度的相關(guān)性)”問(wèn)題的分析,提出了一種改進(jìn)的系統(tǒng)角度的“相關(guān)性”模型,并對(duì)該模型的系統(tǒng)實(shí)現(xiàn)進(jìn)行了構(gòu)想與設(shè)計(jì)。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2003
【分類號(hào)】:TP393.092
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 曹玉娟;牛振東;趙堃;彭學(xué)平;;基于概念和語(yǔ)義網(wǎng)絡(luò)的近似網(wǎng)頁(yè)檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期
2 盧轉(zhuǎn)華;;概念圖的網(wǎng)絡(luò)導(dǎo)航分析[J];牡丹江教育學(xué)院學(xué)報(bào);2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 ;關(guān)于摘要和關(guān)鍵詞的說(shuō)明[A];中國(guó)人民解放軍醫(yī)學(xué)會(huì)第九屆放射診療專業(yè)學(xué)會(huì)論文集[C];2005年
2 李玉亭;溫智虹;姜瑩;;重視科技論文摘要的撰寫(xiě) 提高關(guān)鍵詞的準(zhǔn)確性[A];中國(guó)地震學(xué)會(huì)第十次學(xué)術(shù)大會(huì)論文摘要專集[C];2004年
3 ;規(guī)范關(guān)鍵詞選擇的決定(試行)[A];薄膜技術(shù)學(xué)術(shù)研討會(huì)論文集[C];2003年
4 ;化學(xué)與社會(huì)論壇[A];中國(guó)化學(xué)會(huì)第二十四屆學(xué)術(shù)年會(huì)論文摘要集[C];2004年
5 ;生命科學(xué)中的分析化學(xué)[A];中國(guó)化學(xué)會(huì)第二十四屆學(xué)術(shù)年會(huì)論文摘要集[C];2004年
6 ;化學(xué)生物學(xué)[A];中國(guó)化學(xué)會(huì)第二十四屆學(xué)術(shù)年會(huì)論文摘要集[C];2004年
7 ;化學(xué)信息學(xué)[A];中國(guó)化學(xué)會(huì)第二十四屆學(xué)術(shù)年會(huì)論文摘要集[C];2004年
8 陳儒;張宇;劉挺;;面向網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)流的中文信息多模式模糊匹配[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)’2004論文集[C];2004年
9 ;理論化學(xué)、計(jì)算與模擬化學(xué)[A];中國(guó)化學(xué)會(huì)第二十四屆學(xué)術(shù)年會(huì)論文摘要集[C];2004年
10 張建方;;試驗(yàn)設(shè)計(jì)中五個(gè)關(guān)鍵詞的翻譯問(wèn)題[A];中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第12屆學(xué)術(shù)年會(huì)論文集[C];2005年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 本報(bào)記者 何飛;[N];政府采購(gòu)信息報(bào);2005年
2 記者 毛紹清;[N];西南電力報(bào);2005年
3 ;[N];電腦報(bào);2005年
4 偉成;[N];中國(guó)鄉(xiāng)鎮(zhèn)企業(yè)報(bào);2005年
5 ;[N];中國(guó)企業(yè)報(bào);2005年
6 陳磊 張顯峰 李麗云;[N];科技日?qǐng)?bào);2005年
7 記者 周哲 謝季宏;[N];重慶商報(bào);2005年
8 本報(bào)記者 侯曉軒;[N];計(jì)算機(jī)世界;2005年
9 本報(bào)記者 劉猛;[N];證券時(shí)報(bào);2000年
10 中國(guó)光大銀行 林虹;[N];中國(guó)證券報(bào);2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 洪國(guó)彬;基于隨機(jī)Petri網(wǎng)的企業(yè)業(yè)務(wù)流程重組的理論與優(yōu)化方法研究[D];天津大學(xué);2003年
2 衛(wèi)軍英;整合營(yíng)銷傳播觀念及其理論構(gòu)架[D];浙江大學(xué);2005年
3 衛(wèi)軍英;整合營(yíng)銷傳播觀念的理論建構(gòu)[D];浙江大學(xué);2007年
4 方攀峰;爪蟾肌肉發(fā)生過(guò)程中xTbx6 基因的功能和相應(yīng)的上下游分子機(jī)制的研究[D];中國(guó)科學(xué)院研究生院(上海生命科學(xué)研究院);2004年
5 張艷梅;海派市民小說(shuō)與現(xiàn)代倫理敘事[D];東北師范大學(xué);2004年
6 黃漢平;拉康與后現(xiàn)代文化批評(píng)[D];暨南大學(xué);2004年
7 李思捷;身份書(shū)寫(xiě)與跨文化心態(tài)透視[D];暨南大學(xué);2003年
8 鄒西峰;骨髓源干細(xì)胞在損傷腦組織中遷移和分化的研究[D];第一軍醫(yī)大學(xué);2004年
9 金建軍;血管內(nèi)皮生長(zhǎng)因子在膀胱腫瘤血、尿中的表達(dá)和反義基因治療的研究[D];復(fù)旦大學(xué);2003年
10 張大江;經(jīng)導(dǎo)管肝動(dòng)脈熱碘油栓塞治療原發(fā)性肝癌機(jī)理研究[D];復(fù)旦大學(xué);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王明燕;基于WEB頁(yè)面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)[D];北京工業(yè)大學(xué);2003年
2 陳偉雄;基于元搜索的中文搜索引擎研究與實(shí)現(xiàn)[D];清華大學(xué);2004年
3 何均洪;[D];電子科技大學(xué);2004年
4 郭麗娜;俄語(yǔ)廣告語(yǔ)的民族文化特性研究[D];華中師范大學(xué);2007年
5 何念慈;Internet上的教學(xué)資源搜索系統(tǒng)的研究與實(shí)現(xiàn)[D];暨南大學(xué);2000年
6 王鋒;《古詩(shī)十九首》的言“情”藝術(shù)[D];西北大學(xué);2000年
7 徐艷英;科研論文英文文摘及其寫(xiě)作[D];長(zhǎng)春理工大學(xué);2004年
8 朱毅華;智能搜索引擎中的同義詞識(shí)別算法研究[D];南京農(nóng)業(yè)大學(xué);2001年
9 陳威;生脈注射液對(duì)血流動(dòng)力學(xué)及血管因子影響作用的研究[D];軍醫(yī)進(jìn)修學(xué)院;2001年
10 袁莉;1925年:關(guān)于魯迅的四個(gè)關(guān)鍵詞[D];西南師范大學(xué);2003年
本文關(guān)鍵詞:智能搜索引擎中的同義詞識(shí)別算法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):214411
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/214411.html