天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)

發(fā)布時間:2016-12-15 21:23

  本文關(guān)鍵詞:智能搜索引擎中的同義詞識別算法研究,由筆耕文化傳播整理發(fā)布。


《北京工業(yè)大學(xué)》 2003年

基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)

王明燕  

【摘要】: 關(guān)鍵詞技術(shù)是文本信息處理的一項重要技術(shù)。目前,由于計算機(jī)在自然語言理解方面還有很大的不足,關(guān)鍵詞提取是在進(jìn)行文本自動摘要、文本自動分類、主題詞提取、主題提取等凡是涉及到文本信息理解的工作時,都要應(yīng)用到的一項關(guān)鍵技術(shù)。 本論文詳細(xì)介紹了一種基于Web頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)及其實(shí)驗系統(tǒng)的設(shè)計與實(shí)現(xiàn),并對該技術(shù)在搜索引擎中的應(yīng)用進(jìn)行了探討。論文的核心內(nèi)容包含以下三部分: 首先,關(guān)鍵詞提取系統(tǒng)介紹。圍繞著Web頁面的特殊性開始,依據(jù)Web頁面不同于一般文本的特殊性,介紹了一種基于Web頁面的關(guān)鍵詞提取技術(shù)。該技術(shù)的實(shí)現(xiàn)充分利用了Web頁面中的各種標(biāo)記。 然后,關(guān)鍵概念提取系統(tǒng)介紹。語言是一種不斷發(fā)展的文化,新概念層出不窮,同時還存在很多人名、地名、機(jī)構(gòu)名等專有名詞。這些概念的存在影響了關(guān)鍵詞的提取質(zhì)量。從常用的N元語法入手,,分析該方法存在的問題——N元截斷效應(yīng),提出了一種基于上下文和互信息的關(guān)鍵概念提取方法。該方法的實(shí)現(xiàn)克服了N元算法的截斷效應(yīng),實(shí)現(xiàn)了可變長的概念提取方法。同時,本文又結(jié)合規(guī)則選詞的方法,對提取結(jié)果進(jìn)行了優(yōu)化,取得較好的實(shí)驗效果。 最后,論文對該技術(shù)在搜索引擎中的應(yīng)用在理論進(jìn)行了簡單的探討。通過對搜索引擎中“相關(guān)性(系統(tǒng)角度的相關(guān)性與用戶角度的相關(guān)性)”問題的分析,提出了一種改進(jìn)的系統(tǒng)角度的“相關(guān)性”模型,并對該模型的系統(tǒng)實(shí)現(xiàn)進(jìn)行了構(gòu)想與設(shè)計。

【關(guān)鍵詞】:
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2003
【分類號】:TP393.092
【目錄】:

  • 中文摘要7-9
  • 英文摘要9-11
  • 第1章 緒論11-16
  • 1.1 課題性質(zhì)11
  • 1.2 課題研究的背景11-12
  • 1.3 本課題的理論基礎(chǔ)——自然語言處理技術(shù)12-14
  • 1.3.1 自然語言處理技術(shù)12
  • 1.3.2 自然語言處理研究的歷史與發(fā)展現(xiàn)狀12-14
  • 1.3.3 自然語言處理的研究方法14
  • 1.4 論文的框架結(jié)構(gòu)14-16
  • 第2章 基于Web頁面的關(guān)鍵詞及關(guān)鍵概念提取技術(shù)16-24
  • 2.1 引言16-17
  • 2.2 關(guān)鍵詞與關(guān)鍵概念17-18
  • 2.2.1 關(guān)鍵詞與關(guān)鍵概念的定義17-18
  • 2.2.2 關(guān)鍵詞的特征18
  • 2.3 關(guān)鍵詞及關(guān)鍵概念提取技術(shù)的發(fā)展與意義18-21
  • 2.3.1 關(guān)鍵詞提取技術(shù)的發(fā)展18-20
  • 2.3.2 關(guān)鍵概念提取技術(shù)的發(fā)展20-21
  • 2.3.3 關(guān)鍵詞提取技術(shù)意義21
  • 2.4 基于Web頁面的關(guān)鍵詞與關(guān)鍵概念提取的實(shí)現(xiàn)系統(tǒng)21-22
  • 2.4.1 基于Web頁面的關(guān)鍵詞提取21
  • 2.4.2 基于Web頁面的關(guān)鍵概念提取21-22
  • 2.4.3 系統(tǒng)在搜索引擎中的應(yīng)用22
  • 2.5 系統(tǒng)框架圖22-23
  • 2.6 評估方法23
  • 2.7 本章小結(jié)23-24
  • 第3章 關(guān)鍵詞提取系統(tǒng)的建立與實(shí)現(xiàn)24-38
  • 3.1 引言24
  • 3.2 Web頁面的特殊性24-25
  • 3.3 關(guān)鍵技術(shù)介紹25-27
  • 3.4 基于Web的關(guān)鍵詞提取系統(tǒng)27-37
  • 3.4.1 關(guān)鍵詞提取系統(tǒng)的實(shí)現(xiàn)流程27-29
  • 3.4.2 Web頁面分析模塊29-33
  • 3.4.3 加權(quán)因子提取33-34
  • 3.4.4 權(quán)重計算34-36
  • 3.4.5 關(guān)鍵詞提取36
  • 3.4.6 實(shí)驗結(jié)果與分析36-37
  • 3.5 本章小結(jié)37-38
  • 第4章 關(guān)鍵概念提取系統(tǒng)的建立與實(shí)現(xiàn)38-51
  • 4.1 引言38
  • 4.2 基于“N元語法”統(tǒng)計模型的新詞發(fā)現(xiàn)38-40
  • 4.2.1 ”N元語法”統(tǒng)計模型簡介38-39
  • 4.2.2 基于二元語法和規(guī)則的方法39-40
  • 4.2.3 評價40
  • 4.3 基于上下文和互信息的關(guān)鍵概念提取40-50
  • 4.3.1 詞語上下文40-41
  • 4.3.2 互信息41-42
  • 4.3.3 基于統(tǒng)計系統(tǒng)的具體實(shí)現(xiàn)42-46
  • 4.3.4 系統(tǒng)的核心數(shù)據(jù)結(jié)構(gòu)設(shè)計46
  • 4.3.5 實(shí)驗結(jié)果分析46-47
  • 4.3.6 影響關(guān)鍵概念提取結(jié)果的主要因素47
  • 4.3.7 規(guī)則選詞47-49
  • 4.3.8 規(guī)則選詞的結(jié)果分析49-50
  • 4.4 本章小結(jié)50-51
  • 第5章 系統(tǒng)在搜索引擎中的應(yīng)用51-61
  • 5.1 引言51
  • 5.2 傳統(tǒng)搜索引擎簡介51-52
  • 5.3 搜索引擎中的“相關(guān)性”問題研究52-56
  • 5.3.1 系統(tǒng)角度的相關(guān)性53-54
  • 5.3.2 用戶角度的相關(guān)性54-56
  • 5.3.3 討論56
  • 5.4 關(guān)鍵詞與關(guān)鍵概念在搜索引擎中的應(yīng)用探討56-60
  • 5.4.1 改進(jìn)的系統(tǒng)角度的相關(guān)性判斷模型的提出56-57
  • 5.4.2 系統(tǒng)框架設(shè)計構(gòu)想57-60
  • 5.5 本章小結(jié)60-61
  • 結(jié)論61-64
  • 參考文獻(xiàn)64-69
  • 致謝69
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 曹玉娟;牛振東;趙堃;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法[J];軟件學(xué)報;2011年08期

    2 盧轉(zhuǎn)華;;概念圖的網(wǎng)絡(luò)導(dǎo)航分析[J];牡丹江教育學(xué)院學(xué)報;2011年04期

    3 ;[J];;年期

    4 ;[J];;年期

    5 ;[J];;年期

    6 ;[J];;年期

    7 ;[J];;年期

    8 ;[J];;年期

    9 ;[J];;年期

    10 ;[J];;年期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 ;關(guān)于摘要和關(guān)鍵詞的說明[A];中國人民解放軍醫(yī)學(xué)會第九屆放射診療專業(yè)學(xué)會論文集[C];2005年

    2 李玉亭;溫智虹;姜瑩;;重視科技論文摘要的撰寫 提高關(guān)鍵詞的準(zhǔn)確性[A];中國地震學(xué)會第十次學(xué)術(shù)大會論文摘要專集[C];2004年

    3 ;規(guī)范關(guān)鍵詞選擇的決定(試行)[A];薄膜技術(shù)學(xué)術(shù)研討會論文集[C];2003年

    4 ;化學(xué)與社會論壇[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年

    5 ;生命科學(xué)中的分析化學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年

    6 ;化學(xué)生物學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年

    7 ;化學(xué)信息學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年

    8 陳儒;張宇;劉挺;;面向網(wǎng)絡(luò)實(shí)時數(shù)據(jù)流的中文信息多模式模糊匹配[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會’2004論文集[C];2004年

    9 ;理論化學(xué)、計算與模擬化學(xué)[A];中國化學(xué)會第二十四屆學(xué)術(shù)年會論文摘要集[C];2004年

    10 張建方;;試驗設(shè)計中五個關(guān)鍵詞的翻譯問題[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 本報記者 何飛;[N];政府采購信息報;2005年

    2 記者 毛紹清;[N];西南電力報;2005年

    3 ;[N];電腦報;2005年

    4 偉成;[N];中國鄉(xiāng)鎮(zhèn)企業(yè)報;2005年

    5 ;[N];中國企業(yè)報;2005年

    6 陳磊 張顯峰 李麗云;[N];科技日報;2005年

    7 記者 周哲 謝季宏;[N];重慶商報;2005年

    8 本報記者 侯曉軒;[N];計算機(jī)世界;2005年

    9 本報記者 劉猛;[N];證券時報;2000年

    10 中國光大銀行 林虹;[N];中國證券報;2004年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 洪國彬;基于隨機(jī)Petri網(wǎng)的企業(yè)業(yè)務(wù)流程重組的理論與優(yōu)化方法研究[D];天津大學(xué);2003年

    2 衛(wèi)軍英;整合營銷傳播觀念及其理論構(gòu)架[D];浙江大學(xué);2005年

    3 衛(wèi)軍英;整合營銷傳播觀念的理論建構(gòu)[D];浙江大學(xué);2007年

    4 方攀峰;爪蟾肌肉發(fā)生過程中xTbx6 基因的功能和相應(yīng)的上下游分子機(jī)制的研究[D];中國科學(xué)院研究生院(上海生命科學(xué)研究院);2004年

    5 張艷梅;海派市民小說與現(xiàn)代倫理敘事[D];東北師范大學(xué);2004年

    6 黃漢平;拉康與后現(xiàn)代文化批評[D];暨南大學(xué);2004年

    7 李思捷;身份書寫與跨文化心態(tài)透視[D];暨南大學(xué);2003年

    8 鄒西峰;骨髓源干細(xì)胞在損傷腦組織中遷移和分化的研究[D];第一軍醫(yī)大學(xué);2004年

    9 金建軍;血管內(nèi)皮生長因子在膀胱腫瘤血、尿中的表達(dá)和反義基因治療的研究[D];復(fù)旦大學(xué);2003年

    10 張大江;經(jīng)導(dǎo)管肝動脈熱碘油栓塞治療原發(fā)性肝癌機(jī)理研究[D];復(fù)旦大學(xué);2003年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 王明燕;基于WEB頁面的關(guān)鍵詞與關(guān)鍵概念提取技術(shù)[D];北京工業(yè)大學(xué);2003年

    2 陳偉雄;基于元搜索的中文搜索引擎研究與實(shí)現(xiàn)[D];清華大學(xué);2004年

    3 何均洪;[D];電子科技大學(xué);2004年

    4 郭麗娜;俄語廣告語的民族文化特性研究[D];華中師范大學(xué);2007年

    5 何念慈;Internet上的教學(xué)資源搜索系統(tǒng)的研究與實(shí)現(xiàn)[D];暨南大學(xué);2000年

    6 王鋒;《古詩十九首》的言“情”藝術(shù)[D];西北大學(xué);2000年

    7 徐艷英;科研論文英文文摘及其寫作[D];長春理工大學(xué);2004年

    8 朱毅華;智能搜索引擎中的同義詞識別算法研究[D];南京農(nóng)業(yè)大學(xué);2001年

    9 陳威;生脈注射液對血流動力學(xué)及血管因子影響作用的研究[D];軍醫(yī)進(jìn)修學(xué)院;2001年

    10 袁莉;1925年:關(guān)于魯迅的四個關(guān)鍵詞[D];西南師范大學(xué);2003年


      本文關(guān)鍵詞:智能搜索引擎中的同義詞識別算法研究,由筆耕文化傳播整理發(fā)布。



    本文編號:214411

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/214411.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶b4b90***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com