基于多層語料庫的短語結(jié)構(gòu)標(biāo)注及計(jì)算研究
發(fā)布時(shí)間:2022-07-29 14:05
海量文本信息的增長給信息檢索帶來了極大的困難,當(dāng)前的智能信息檢索技術(shù)試圖通過信息組織,將文本數(shù)據(jù)轉(zhuǎn)化為機(jī)器可以存儲、標(biāo)引、提取的有序數(shù)據(jù),同時(shí)通過主題法、分類法、主題分類一體化、知識描述框架、本體等方式對其進(jìn)行深加工。但在這個(gè)過程中,主題法、分類法、本體等解決方案的構(gòu)建需要花費(fèi)大量的人力,也需要領(lǐng)域?qū)<业慕槿。而通過將信息轉(zhuǎn)化為數(shù)學(xué)的方式,如將檢索與文檔轉(zhuǎn)化為向量,通過矩陣相似完成檢索雖然在計(jì)算機(jī)上較易實(shí)現(xiàn),但檢索結(jié)果往往出現(xiàn)大量冗余。在這種情況下,對于信息檢索的優(yōu)化主要靠加權(quán)或考慮文檔外部因素,如從引用角度上來進(jìn)行改進(jìn)就是常用方法之一。本文以語言學(xué)知識作為解決當(dāng)前信息檢索困境的新思路,將朱德熙先生的"詞組本位"思想、Abney的chunk思想、陳小荷先生語法功能匹配思想、馮志偉先生對于術(shù)語語法構(gòu)成的思想應(yīng)用于科技文獻(xiàn)檢索,將短語語法功能知識引入信息檢索。通過短語語法功能,在關(guān)鍵詞、術(shù)語構(gòu)成上可以從語法角度探討各組成詞匯之間的語法關(guān)系,而不是簡單的以字面相似度或是各種加權(quán)后的值來進(jìn)行匹配。關(guān)鍵詞、術(shù)語之間關(guān)系將不再通過簡單共現(xiàn)表現(xiàn),而是通過語法功能附加新一層的語義信息。利用短語語法功能...
【文章頁數(shù)】:141 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究內(nèi)容
1.4 創(chuàng)新之處
1.5 章節(jié)安排
第2章 文獻(xiàn)綜述
2.1 組塊研究與短語樹庫
2.1.1 轉(zhuǎn)換生成語法及組塊研究的出現(xiàn)
2.1.2 短語樹庫研究
2.2 現(xiàn)代句法理論及短語識別
2.2.1 現(xiàn)代句法理論
2.2.2 短語識別綜述
2.3 術(shù)語短語研究綜述
2.4 本章小結(jié)
第3章 基于多層語料短語知識獲取
3.1 語料基本情況
3.1.1 清華樹庫
3.1.2 賓州中文樹庫
3.1.3 清華樹庫與賓州中文樹庫異同
3.2 樹庫解析與存儲
3.2.1 預(yù)處理
3.2.2 基本數(shù)據(jù)結(jié)構(gòu)
3.3 漢語短語基本分布獲取
3.4 漢語短語結(jié)構(gòu)獲取樣例
3.5 小規(guī)模CSSCI語料輔助標(biāo)注及解析
3.6 本章小結(jié)
第4章 基于樹庫的漢語短語分布研究
4.1 樹庫內(nèi)漢語短語分布
4.1.1 樹庫內(nèi)漢語短語分布
4.1.2 樹庫內(nèi)漢語基本短語分布
4.2 清華樹庫短語成分分析
4.2.1 清華樹庫基本短語成分統(tǒng)計(jì)
4.2.2 清華樹庫復(fù)雜短語成分統(tǒng)計(jì)
4.2.3 清華樹庫述賓結(jié)構(gòu)統(tǒng)計(jì)分析
4.3 賓州樹庫短語成分分析
4.4 CSSCI標(biāo)注語料分析
4.4.1 標(biāo)注關(guān)鍵詞短語分析
4.4.2 標(biāo)注標(biāo)題短語分析
4.5 本章小結(jié)
第5章 基于機(jī)器學(xué)習(xí)的漢語短語識別
5.1 短語識別機(jī)器學(xué)習(xí)算法模型及模板
5.1.1 最大熵模型
5.1.2 條件隨機(jī)場模型
5.1.3 自動識別流程
5.2 清華樹庫中漢語短語識別
5.2.1 訓(xùn)練樣本選擇及語言學(xué)特征統(tǒng)計(jì)
5.2.2 基于最大熵的漢語短語識別
5.2.3 基于條件隨機(jī)場的漢語短語識別
5.3 賓州中文樹庫中漢語短語識別
5.3.1 訓(xùn)練樣本選擇及語言學(xué)特征統(tǒng)計(jì)
5.3.2 訓(xùn)練結(jié)果
5.4 本章小結(jié)
第6章 面向CSSCI的漢語短語標(biāo)注模型構(gòu)建
6.1 模型理論基礎(chǔ)
6.1.1 模型的語法理論基礎(chǔ)
6.1.2 模型的算法理論基礎(chǔ)
6.1.3 語料庫基礎(chǔ)
6.2 CSSCI語料預(yù)處理與基本統(tǒng)計(jì)
6.3 基于CSSCI短語詞匯、詞性統(tǒng)計(jì)及短語語法功能分析
6.4 基于CSSCI短語自動識別
6.5 本章小結(jié)
第7章 結(jié)語
7.1 結(jié)語
7.2 未來工作
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)字圖書館知識組織體系構(gòu)建的發(fā)展路徑——概念格與本體的互補(bǔ)融合[J]. 畢強(qiáng),鮑玉來. 華中師范大學(xué)學(xué)報(bào)(人文社會科學(xué)版). 2011(05)
[2]基于條件隨機(jī)場的介賓結(jié)構(gòu)自動識別[J]. 朱丹浩,王東波,謝靖. 現(xiàn)代圖書情報(bào)技術(shù). 2010(Z1)
[3]基于最大熵的漢語介詞短語識別研究[J]. 盧朝華,黃廣君,郭志兵. 通信技術(shù). 2010(05)
[4]術(shù)語形成的經(jīng)濟(jì)律——FEL公式[J]. 馮志偉. 中國科技術(shù)語. 2010(02)
[5]詞組型術(shù)語結(jié)構(gòu)的自動句法剖析[J]. 馮志偉. 中國科技術(shù)語. 2009(05)
[6]單詞型術(shù)語的結(jié)構(gòu)自動分析[J]. 馮志偉. 中國科技術(shù)語. 2009(03)
[7]一個(gè)新興的術(shù)語學(xué)科——計(jì)算術(shù)語學(xué)[J]. 馮志偉. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2008(04)
[8]基于語法功能匹配的漢語句法分析算法[J]. 盧俊之,陳小荷,王東波,陳鋒. 計(jì)算機(jī)工程與應(yīng)用. 2008(16)
[9]基于樹庫的現(xiàn)代漢語短語分布考察[J]. 陳鋒,陳小荷. 語言科學(xué). 2008(01)
[10]語義Web中的本體推理研究[J]. 李永超,羅鈞旻. 計(jì)算機(jī)技術(shù)與發(fā)展. 2007(01)
博士論文
[1]基于本體知識庫推理的語義搜索研究[D]. 文坤梅.華中科技大學(xué) 2007
[2]現(xiàn)代漢語實(shí)詞語法功能考察及詞類體系重構(gòu)[D]. 徐艷華.南京師范大學(xué) 2006
[3]基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D]. 曹海龍.哈爾濱工業(yè)大學(xué) 2006
[4]面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[D]. 詹衛(wèi)東.北京大學(xué) 1999
碩士論文
[1]基于語法功能匹配的句法分析算法[D]. 盧俊之.南京師范大學(xué) 2008
[2]有標(biāo)記聯(lián)合結(jié)構(gòu)的自動識別[D]. 王東波.南京師范大學(xué) 2008
[3]漢語復(fù)句關(guān)系自動判定研究[D]. 洪鹿平.南京師范大學(xué) 2008
[4]基于本體技術(shù)的語義檢索及其語義相似度研究[D]. 鄒文科.北京郵電大學(xué) 2008
本文編號:3666599
【文章頁數(shù)】:141 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究內(nèi)容
1.4 創(chuàng)新之處
1.5 章節(jié)安排
第2章 文獻(xiàn)綜述
2.1 組塊研究與短語樹庫
2.1.1 轉(zhuǎn)換生成語法及組塊研究的出現(xiàn)
2.1.2 短語樹庫研究
2.2 現(xiàn)代句法理論及短語識別
2.2.1 現(xiàn)代句法理論
2.2.2 短語識別綜述
2.3 術(shù)語短語研究綜述
2.4 本章小結(jié)
第3章 基于多層語料短語知識獲取
3.1 語料基本情況
3.1.1 清華樹庫
3.1.2 賓州中文樹庫
3.1.3 清華樹庫與賓州中文樹庫異同
3.2 樹庫解析與存儲
3.2.1 預(yù)處理
3.2.2 基本數(shù)據(jù)結(jié)構(gòu)
3.3 漢語短語基本分布獲取
3.4 漢語短語結(jié)構(gòu)獲取樣例
3.5 小規(guī)模CSSCI語料輔助標(biāo)注及解析
3.6 本章小結(jié)
第4章 基于樹庫的漢語短語分布研究
4.1 樹庫內(nèi)漢語短語分布
4.1.1 樹庫內(nèi)漢語短語分布
4.1.2 樹庫內(nèi)漢語基本短語分布
4.2 清華樹庫短語成分分析
4.2.1 清華樹庫基本短語成分統(tǒng)計(jì)
4.2.2 清華樹庫復(fù)雜短語成分統(tǒng)計(jì)
4.2.3 清華樹庫述賓結(jié)構(gòu)統(tǒng)計(jì)分析
4.3 賓州樹庫短語成分分析
4.4 CSSCI標(biāo)注語料分析
4.4.1 標(biāo)注關(guān)鍵詞短語分析
4.4.2 標(biāo)注標(biāo)題短語分析
4.5 本章小結(jié)
第5章 基于機(jī)器學(xué)習(xí)的漢語短語識別
5.1 短語識別機(jī)器學(xué)習(xí)算法模型及模板
5.1.1 最大熵模型
5.1.2 條件隨機(jī)場模型
5.1.3 自動識別流程
5.2 清華樹庫中漢語短語識別
5.2.1 訓(xùn)練樣本選擇及語言學(xué)特征統(tǒng)計(jì)
5.2.2 基于最大熵的漢語短語識別
5.2.3 基于條件隨機(jī)場的漢語短語識別
5.3 賓州中文樹庫中漢語短語識別
5.3.1 訓(xùn)練樣本選擇及語言學(xué)特征統(tǒng)計(jì)
5.3.2 訓(xùn)練結(jié)果
5.4 本章小結(jié)
第6章 面向CSSCI的漢語短語標(biāo)注模型構(gòu)建
6.1 模型理論基礎(chǔ)
6.1.1 模型的語法理論基礎(chǔ)
6.1.2 模型的算法理論基礎(chǔ)
6.1.3 語料庫基礎(chǔ)
6.2 CSSCI語料預(yù)處理與基本統(tǒng)計(jì)
6.3 基于CSSCI短語詞匯、詞性統(tǒng)計(jì)及短語語法功能分析
6.4 基于CSSCI短語自動識別
6.5 本章小結(jié)
第7章 結(jié)語
7.1 結(jié)語
7.2 未來工作
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)字圖書館知識組織體系構(gòu)建的發(fā)展路徑——概念格與本體的互補(bǔ)融合[J]. 畢強(qiáng),鮑玉來. 華中師范大學(xué)學(xué)報(bào)(人文社會科學(xué)版). 2011(05)
[2]基于條件隨機(jī)場的介賓結(jié)構(gòu)自動識別[J]. 朱丹浩,王東波,謝靖. 現(xiàn)代圖書情報(bào)技術(shù). 2010(Z1)
[3]基于最大熵的漢語介詞短語識別研究[J]. 盧朝華,黃廣君,郭志兵. 通信技術(shù). 2010(05)
[4]術(shù)語形成的經(jīng)濟(jì)律——FEL公式[J]. 馮志偉. 中國科技術(shù)語. 2010(02)
[5]詞組型術(shù)語結(jié)構(gòu)的自動句法剖析[J]. 馮志偉. 中國科技術(shù)語. 2009(05)
[6]單詞型術(shù)語的結(jié)構(gòu)自動分析[J]. 馮志偉. 中國科技術(shù)語. 2009(03)
[7]一個(gè)新興的術(shù)語學(xué)科——計(jì)算術(shù)語學(xué)[J]. 馮志偉. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2008(04)
[8]基于語法功能匹配的漢語句法分析算法[J]. 盧俊之,陳小荷,王東波,陳鋒. 計(jì)算機(jī)工程與應(yīng)用. 2008(16)
[9]基于樹庫的現(xiàn)代漢語短語分布考察[J]. 陳鋒,陳小荷. 語言科學(xué). 2008(01)
[10]語義Web中的本體推理研究[J]. 李永超,羅鈞旻. 計(jì)算機(jī)技術(shù)與發(fā)展. 2007(01)
博士論文
[1]基于本體知識庫推理的語義搜索研究[D]. 文坤梅.華中科技大學(xué) 2007
[2]現(xiàn)代漢語實(shí)詞語法功能考察及詞類體系重構(gòu)[D]. 徐艷華.南京師范大學(xué) 2006
[3]基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D]. 曹海龍.哈爾濱工業(yè)大學(xué) 2006
[4]面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[D]. 詹衛(wèi)東.北京大學(xué) 1999
碩士論文
[1]基于語法功能匹配的句法分析算法[D]. 盧俊之.南京師范大學(xué) 2008
[2]有標(biāo)記聯(lián)合結(jié)構(gòu)的自動識別[D]. 王東波.南京師范大學(xué) 2008
[3]漢語復(fù)句關(guān)系自動判定研究[D]. 洪鹿平.南京師范大學(xué) 2008
[4]基于本體技術(shù)的語義檢索及其語義相似度研究[D]. 鄒文科.北京郵電大學(xué) 2008
本文編號:3666599
本文鏈接:http://sikaile.net/tushudanganlunwen/3666599.html