《大連理工大學(xué)》2010年碩士論文
本文關(guān)鍵詞:企業(yè)信息檢索中的對象檢索方法研究,由筆耕文化傳播整理發(fā)布。
《大連理工大學(xué)》 2010年
大規(guī)模中英可比較語料庫構(gòu)建
趙蓮
【摘要】: 隨著統(tǒng)計(jì)方法的迅速發(fā)展,大規(guī)模語料庫已成為自然語言處理領(lǐng)域不可或缺的基礎(chǔ)資源。其中,平行語料庫由于其組成語料的互譯性,廣泛地應(yīng)用于跨語言對比研究、翻譯消歧、機(jī)器翻譯及輔助翻譯等領(lǐng)域。 與平行語料庫相比,可比較語料庫具有易于獲取、資源豐富、內(nèi)容新穎等特點(diǎn)。目前,基于可比較語料庫的研究越來越廣泛。本文以“基于可比較語料庫的命名實(shí)體互譯對挖掘”為背景,構(gòu)建大規(guī)模的中英可比較語料庫。 通過分析現(xiàn)有可比較語料庫構(gòu)建方法中的不足,本文提出了基于跨語言信息檢索與特征過濾相結(jié)合的方法,旨在獲取大規(guī)模、高質(zhì)量的中英可比較語料庫。首先,抽取出源語言(中文)文檔中的關(guān)鍵詞,把關(guān)鍵詞翻譯成目標(biāo)語言(英文)查詢詞,并根據(jù)一定的標(biāo)準(zhǔn)組合成查詢語句;其次,利用信息檢索系統(tǒng)檢索與查詢語句相關(guān)的目標(biāo)語言文檔,與源語言文檔共同組成可比較文檔對;最后,通過基于日期、相似度等特征的過濾方法對已生成的文檔對進(jìn)行過濾。本文的主要貢獻(xiàn)包含以下三個(gè)方面: (1)在關(guān)鍵詞抽取過程中,有效地結(jié)合了關(guān)鍵短語與關(guān)鍵單詞。采用不同的方法構(gòu)造候選短語及候選單詞集合,并對其分別排序。同時(shí),通過使用基于對稱條件概率及局部最大值相結(jié)合的方法對分詞結(jié)果進(jìn)行修正,提高了關(guān)鍵詞的抽取效果。 (2)基于不同的特征設(shè)計(jì)了兩種過濾方法,對可比較文檔對進(jìn)行過濾。第一種方法基于文檔的發(fā)布日期及檢索系統(tǒng)返回的查詢語句與目標(biāo)語言文檔間的相似度進(jìn)行過濾。在此基礎(chǔ)上,第二種過濾方法綜合考慮了可比較文檔對中互譯關(guān)鍵詞個(gè)數(shù)及權(quán)重,引入了新特征KSD。實(shí)驗(yàn)表明,基于日期、相似度及KSD的過濾方法比第一種方法更為有效,對齊質(zhì)量較高的文檔對在可比較語料庫中所占比例提高了17.6%。 (3)基于五個(gè)相關(guān)性標(biāo)準(zhǔn)對可比較語料庫的對齊質(zhì)量進(jìn)行了抽樣分析。通過與其它可比較語料庫構(gòu)建方法對比,驗(yàn)證了本文中構(gòu)建方法的有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 李康熙;楊勇;;平行語料庫對齊技術(shù)的語言學(xué)思考[J];合肥工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2009年03期
2 邢永康;馬少平;;信息檢索的概率模型[J];計(jì)算機(jī)科學(xué);2003年08期
3 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報(bào);2006年06期
4 羅準(zhǔn)辰;王挺;;基于分離模型的中文關(guān)鍵詞提取算法研究[J];中文信息學(xué)報(bào);2009年01期
5 羅彥彥;黃德根;;基于CRFs邊緣概率的中文分詞[J];中文信息學(xué)報(bào);2009年05期
6 ;Keyword Extraction Based on tf/idf for Chinese News Document[J];Wuhan University Journal of Natural Sciences;2007年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘曉旭;;層次聚類方法在關(guān)鍵詞提取上的研究應(yīng)用[J];電腦知識與技術(shù);2009年06期
2 魏彬;張軍;項(xiàng)穎;;基于統(tǒng)計(jì)模型和小波變換的文本檢索方法[J];電腦知識與技術(shù);2009年07期
3 高燕;;關(guān)鍵詞自動(dòng)標(biāo)引方法綜述[J];電子世界;2012年06期
4 高學(xué)東;吳玲玉;;基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法[J];中國管理信息化;2011年09期
5 謝飛;吳信東;胡學(xué)鋼;李星華;江兆中;;基于語義聯(lián)系的新聞網(wǎng)頁關(guān)鍵詞抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
6 尹倩;胡學(xué)鋼;謝飛;吳信東;;基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
7 王成平;;信息處理用彝漢雙語詞匯對齊技術(shù)研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年11期
8 周雪燕;韓建敏;;基于條件隨機(jī)場漢語分詞的語料規(guī)模量化研究[J];電腦與電信;2012年07期
9 李孝明,曹萬華;艦載作戰(zhàn)指揮系統(tǒng)軟件構(gòu)件庫技術(shù)研究(續(xù)三):檢索和管理[J];艦船電子工程;2005年03期
10 管瑞霞;陸蓓;;TFLD:一種中文文本關(guān)鍵詞自動(dòng)提取方法[J];機(jī)電工程;2010年09期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 章成志;;基于集成學(xué)習(xí)的自動(dòng)標(biāo)引方法研究[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年
3 楊潔;季鐸;蔡東風(fēng);白宇;;基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
4 楊潔;季鐸;蔡東風(fēng);代翠;;基于TextRank的多文檔關(guān)鍵詞抽取技術(shù)[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年
2 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
3 王菁華;文本中知識的獲取[D];北京郵電大學(xué);2008年
4 王樂;短語消息聚類相關(guān)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
5 何慧;WEB文本挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2009年
6 茹昭;企業(yè)信息檢索中的對象檢索方法研究[D];北京郵電大學(xué);2008年
7 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2009年
8 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年
9 謝飛;帶有通配符的序列模式挖掘研究[D];合肥工業(yè)大學(xué);2011年
10 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂晨;搜索競價(jià)廣告關(guān)鍵詞優(yōu)化問題研究[D];山東科技大學(xué);2010年
2 耿倩;基于文本相似度計(jì)算的文本聚類算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
3 王東亮;基于條件隨機(jī)場模型的中文人名識別的研究[D];大連理工大學(xué);2010年
4 紅霞;基于層疊條件隨機(jī)場的中文機(jī)構(gòu)名識別的研究[D];大連理工大學(xué);2010年
5 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長沙理工大學(xué);2010年
6 陳冰泉;面向農(nóng)產(chǎn)品信息的主題搜索引擎與信息推薦[D];華南理工大學(xué);2010年
7 胡家豪;基于互聯(lián)網(wǎng)的WEB輿情問答系統(tǒng)[D];電子科技大學(xué);2011年
8 陶啟立;基于語義的科技文檔信息資源檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2011年
9 范小麗;文本分類中特征選擇的研究與實(shí)現(xiàn)[D];西北大學(xué);2011年
10 謝鳳宏;基于復(fù)雜網(wǎng)絡(luò)理論的文本聚類和關(guān)鍵詞提取方法研究[D];遼寧師范大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁春;關(guān)鍵詞標(biāo)引的若干問題探討[J];編輯學(xué)報(bào);2004年02期
2 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語構(gòu)成規(guī)則挖掘[J];電子學(xué)報(bào);2007年02期
3 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計(jì)算機(jī)工程;2005年18期
4 李素建,王厚峰,俞士汶,辛乘勝;關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究[J];計(jì)算機(jī)學(xué)報(bào);2004年09期
5 王軍;詞表的自動(dòng)豐富——從元數(shù)據(jù)中提取關(guān)鍵詞及其定位[J];中文信息學(xué)報(bào);2005年06期
6 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報(bào);2006年06期
7 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報(bào);2007年05期
8 劉開瑛,薛翠芳,鄭家恒,周曉強(qiáng);中文文本中抽取特征信息的區(qū)域與技術(shù)[J];中文信息學(xué)報(bào);1998年02期
9 何新貴,彭甫陽;中文文本的關(guān)鍵詞自動(dòng)抽取和模糊分類[J];中文信息學(xué)報(bào);1999年01期
10 張韌;;認(rèn)知語法視野下的構(gòu)式研究[J];外語研究;2007年03期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王爽;熊德蘭;王曉霞;;基于實(shí)例的古文機(jī)器翻譯設(shè)計(jì)與實(shí)現(xiàn)[J];許昌學(xué)院學(xué)報(bào);2009年05期
2 曹英;徐衛(wèi);;基于網(wǎng)頁的語料庫自動(dòng)生成[J];電腦知識與技術(shù);2010年23期
3 吳迪;淺談開發(fā)《CONULEXID英漢語言資料庫》的意義[J];科技與出版;1998年04期
4 何儒云,湯艷莉;智能化信息檢索研究[J];圖書館;2003年03期
5 陸劍江;張霞;;基于Web語料庫的知識發(fā)現(xiàn)設(shè)計(jì)與研究[J];計(jì)算機(jī)應(yīng)用與軟件;2006年07期
6 張亮;王樹梅;黃河燕;張孝飛;;面向中文問答系統(tǒng)的問句句法分析[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
7 邱悅;;跨語言信息檢索研究[J];圖書情報(bào)工作;2006年10期
8 郝天俠;;跨語言信息檢索技術(shù)與應(yīng)用研究[J];情報(bào)雜志;2007年12期
9 王清;殷業(yè);;基于Globish的旅游用英漢翻譯系統(tǒng)的研究[J];企業(yè)科技與發(fā)展;2008年12期
10 高璐;;藏語天氣預(yù)報(bào)語音合成系統(tǒng)的初步研究[J];電腦與電信;2009年01期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 郭曙綸;;基于語料庫的HSK多功能例解字典:設(shè)想與樣例[A];2004年辭書與數(shù)字化研討會(huì)論文集[C];2004年
2 梁紅梅;尹曉霞;李宇莊;;有關(guān)語料庫驅(qū)動(dòng)下的外語在線自主學(xué)習(xí)的工作底稿[A];全國大學(xué)英語教學(xué)改革暨網(wǎng)絡(luò)環(huán)境下外語教學(xué)學(xué)術(shù)研討會(huì)論文集[C];2004年
3 許小星;亢世勇;孫茂松;劉金鳳;;語料庫語義成分標(biāo)注的若干問題[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
4 宋鴻彥;劉軍;姚天昉;劉全升;黃高輝;;漢語意見型主觀性文本標(biāo)注語料庫的構(gòu)建[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
5 黃玉;李生;孟遙;丁華福;;基于大規(guī)模語料庫的英語從句識別[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年
6 李明;;語料庫·藍(lán)本·雙語詞典[A];中國辭書學(xué)會(huì)雙語詞典專業(yè)委員會(huì)第五屆年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2003年
7 郭啟新;;論語料庫與英漢詞典配例[A];中國辭書學(xué)會(huì)雙語詞典專業(yè)委員會(huì)第四屆年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2001年
8 蔡蓮紅;蔡銳;吳志勇;陶建華;;語音合成語料庫的設(shè)計(jì)與聲學(xué)特征分析[A];中國聲學(xué)學(xué)會(huì)2002年全國聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2002年
9 孫述學(xué);;新詞語語料庫建設(shè)的一些構(gòu)想[A];2004年辭書與數(shù)字化研討會(huì)論文集[C];2004年
10 王仁華;胡郁;李威;凌震華;;基于決策樹的漢語大語料庫合成系統(tǒng)[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 記者 王坤寧;[N];中國新聞出版報(bào);2002年
2 本報(bào)記者 周建華;[N];中國圖書商報(bào);2001年
3 盧偉;[N];文藝報(bào);2004年
4 記者 曹秀娟;[N];山西日報(bào);2010年
5 顧曰國;[N];中國社會(huì)科學(xué)院院報(bào);2003年
6 陳勁宏;[N];中國電腦教育報(bào);2002年
7 李大慶;[N];科技日報(bào);2002年
8 ;[N];光明日報(bào);2001年
9 本報(bào)記者 陳友梅;[N];中國計(jì)算機(jī)報(bào);2001年
10 閆宏志;[N];中國計(jì)算機(jī)報(bào);2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張廷香;基于語料庫的3-6歲漢語兒童詞匯研究[D];山東大學(xué);2010年
2 夏云;基于語料庫的英漢翻譯小說常規(guī)化研究:歷時(shí)的視角[D];山東大學(xué);2010年
3 劉建鵬;語料庫支撐的系統(tǒng)功能語法研究[D];西南大學(xué);2012年
4 何婷婷;語料庫研究[D];華中師范大學(xué);2003年
5 李毅;基于語料庫的隱喻普遍性與變異性研究[D];山東大學(xué);2012年
6 趙永青;基于語料庫的英語多人沖突性話語研究[D];上海外國語大學(xué);2012年
7 王青;基于語料庫的《尤利西斯》漢譯本譯者風(fēng)格研究[D];山東大學(xué);2010年
8 唐斌;《人民日報(bào)》中(1987-2007)農(nóng)民工的話語再現(xiàn)[D];上海外國語大學(xué);2010年
9 徐欣;基于語料庫的英漢小說語篇中話語標(biāo)記功能研究[D];山東大學(xué);2011年
10 王麗;基于語料庫的中國學(xué)習(xí)者英語口語中語用標(biāo)記語研究[D];上海交通大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 岳炳詞;面向語言學(xué)研究的大規(guī)模漢語生語料庫檢索工具CCRLT[D];北京工業(yè)大學(xué);2001年
2 徐琰;基于語料庫的ONLY研究[D];大連海事大學(xué);2003年
3 楊麗萍;基于語料庫的英語專業(yè)大學(xué)生議論文限時(shí)寫作中的四字詞塊研究[D];江西師范大學(xué);2010年
4 李淼;用先進(jìn)的語料庫工具推進(jìn)英語教學(xué)[D];首都師范大學(xué);2004年
5 李春青;[D];電子科技大學(xué);2004年
6 王蓉;新聞?dòng)⒄Z的批評性語篇分析[D];上海師范大學(xué);2010年
7 劉鼎甲;連接成分的顯化:基于語料庫的中英文翻譯文本對比[D];燕山大學(xué);2010年
8 劉露露;漢語衍名的雙事件隱喻分析[D];四川外語學(xué)院;2011年
9 黃潔;基于語料庫的商務(wù)英語詞匯特點(diǎn)的研究[D];大連海事大學(xué);2010年
10 李艷梅;基于語料庫的中國英語學(xué)習(xí)者與本族語者闡發(fā)性話語標(biāo)記語的對比分析[D];沈陽師范大學(xué);2011年
本文關(guān)鍵詞:企業(yè)信息檢索中的對象檢索方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:112257
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/112257.html