天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于N元分析與詞頻統(tǒng)計(jì)的文本復(fù)合標(biāo)引研究

發(fā)布時間:2020-07-03 02:50
【摘要】: 科學(xué)技術(shù)的發(fā)展已將人類帶入智能化的信息社會,使得信息成為重要的資源,但隨之也帶來了信息資源的爆炸性增長和無限擴(kuò)張。面對龐大的信息資源,信息處理成為人們有效利用信息必須借助的關(guān)鍵手段。在信息處理中,一項(xiàng)重要的工作就是根據(jù)原文信息內(nèi)容產(chǎn)生簡明準(zhǔn)確的信息標(biāo)引,因?yàn)樾畔?biāo)引的質(zhì)量在一定程度上決定了信息處理的效果,也就必然影響信息對于人們的利用價值。在此背景下,研究出低成本、高效率的信息標(biāo)引方法顯得至關(guān)重要。 因此,本文圍繞自動標(biāo)引技術(shù)和方法,以文本信息的自動標(biāo)引作為研究對象,利用比較分析與實(shí)驗(yàn)分析相結(jié)合的研究方法,針對N-gram標(biāo)引和詞頻統(tǒng)計(jì)標(biāo)引展開研究與探討。在此基礎(chǔ)上,提出了基于N元分析與詞頻統(tǒng)計(jì)的文本復(fù)合標(biāo)引這一新型標(biāo)引方法。本文主體內(nèi)容如下: 首先,本文從文本和自動標(biāo)引相關(guān)介紹切入,對自動標(biāo)引的研究發(fā)展進(jìn)行了系統(tǒng)的回顧與總結(jié),重點(diǎn)從自動標(biāo)引基本理論的宏觀層面劃分、自動標(biāo)引發(fā)展過程中兼具創(chuàng)新性與影響力的代表性方法縱覽以及自動標(biāo)引研究路線圖三方面進(jìn)行簡要論述,繼而指出自動標(biāo)引發(fā)展中存在的問題和可能的解決途徑,引出本文的復(fù)合標(biāo)引這一研究主題。 其次,本文從原理、方法和實(shí)現(xiàn)過程三個角度對詞頻統(tǒng)計(jì)標(biāo)引和N-gram標(biāo)引兩種方法進(jìn)行較為全面系統(tǒng)的分析與比較,闡述了兩種方法在本質(zhì)上的一致性和方法過程上的互補(bǔ)性,通過引入統(tǒng)計(jì)學(xué)領(lǐng)域中的條件概率和信息論領(lǐng)域中的信息熵這兩個工具,將N-gram標(biāo)引和詞頻統(tǒng)計(jì)標(biāo)引有效的復(fù)合為一體,提出了兼具二者優(yōu)勢的基于N元分析與詞頻統(tǒng)計(jì)的文本復(fù)合標(biāo)引方法,并對其進(jìn)行了詳細(xì)的介紹,給出了具體的實(shí)現(xiàn)過程。 最后,本文采用實(shí)驗(yàn)分析法,通過對比試驗(yàn),進(jìn)一步的從實(shí)踐的角度論證本文提出的文本復(fù)合標(biāo)引方法在理論方面的正確性和在應(yīng)用實(shí)踐方面的可行性與有效性,相關(guān)實(shí)驗(yàn)結(jié)果也對本文的方法提供了有力的論證。 因此,本文的研究工作具有一定的創(chuàng)新性,同時對他人在自動標(biāo)引方法的復(fù)合研究方面也具有一定的借鑒和指導(dǎo)意義。
【學(xué)位授予單位】:南開大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:G254.361
【圖文】:

自動標(biāo)引,語塊,維度


在這一方面,章成志f’〕對這三個領(lǐng)域分別從自動化程度維度和知識復(fù)雜程度維度(先后經(jīng)歷字、詞、短語、語塊、句法、語義、篇章結(jié)構(gòu)等不同顆粒度的多種知識。)這兩個維度對自動標(biāo)引進(jìn)行了較為全面的概括總結(jié)形成圖2.3如下:深層算雜知祺磁欲阿娜潤,嚴(yán)撬徽徽‘…“兜全人工標(biāo)弓獷分家擇引合由振弓曰叫,’‘口翻.,二‘層圈,廠‘撬默圈,·廠語塊魏烈熊l}道滋場誠廠兜全自動悔弓耳「而砰蔽〕,廠辱平牢廠一廠~假泌層碑單知識圖2.3自動標(biāo)引研究路線圖資料來源:章成志.白動標(biāo)引研究的回顧與展望.現(xiàn)代圖書情報(bào)技術(shù),2007(n):35,」章成志.自動標(biāo)引研究的回顧

界面圖,標(biāo)引,文本,界面


縮冗余的N一gram數(shù)量。(2)從文本庫中載入待標(biāo)引處理的文本。在本文中,這一部分要求建立相應(yīng)的處理程序相關(guān)的人工干預(yù)機(jī)制,相關(guān)程序輸出界面如圖4.1所示。圖4.1從文本庫中載入待標(biāo)引處理文本界面資料來源:作者整理(3)對載入的文本進(jìn)行預(yù)處理。此過程分為兩步,首先,凡是遇到空格、數(shù)字、英文單詞等,將字符串折為兩段并存入某一數(shù)組中;其次,對上一步處理結(jié)果的語段進(jìn)行再處理,凡是遇到漢語中的標(biāo)點(diǎn)、虛詞等停用詞時,再次拆分并存入數(shù)組。(4)從載入的文本開始按n=2,3,4,步長為l

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 江孝感;中文部件詞組配特性的完備性問題[J];現(xiàn)代圖書情報(bào)技術(shù);1990年02期

2 葉志清,劉瑞紅,袁慶,胡修蘭;文獻(xiàn)信息計(jì)算機(jī)全文全自動標(biāo)引方法[J];情報(bào)學(xué)報(bào);2003年02期

3 王繼華,王懷惠,吳澤宜;中文農(nóng)業(yè)科技文獻(xiàn)自動標(biāo)引系統(tǒng)SDIC/CASDAIS[J];情報(bào)學(xué)報(bào);1995年05期

4 朱麗;自動標(biāo)引在自然語言提問中的應(yīng)用[J];情報(bào)理論與實(shí)踐;1998年03期

5 高崇謙;漢語文獻(xiàn)自動處理、標(biāo)引和檢索系統(tǒng)的開發(fā)[J];現(xiàn)代圖書情報(bào)技術(shù);1989年02期

6 史繼紅,賴茂生;漢語自動標(biāo)引加權(quán)方法試驗(yàn)研究[J];現(xiàn)代圖書情報(bào)技術(shù);1994年03期

7 黃慶紅;自動標(biāo)引與機(jī)輔標(biāo)引[J];現(xiàn)代圖書情報(bào)技術(shù);2002年S1期

8 楊學(xué)山;;詞典在漢語科技文獻(xiàn)自動標(biāo)引中的作用[J];情報(bào)科學(xué);1987年03期

9 李遠(yuǎn)志,何曉華;中文書目的自動標(biāo)引與檢索[J];應(yīng)用科技;1995年01期

10 楊則正;信息檢索中人工標(biāo)引和自動標(biāo)引的組合應(yīng)用[J];管理科學(xué)文摘;1997年03期

相關(guān)會議論文 前10條

1 章成志;周冬敏;蘇新寧;;自動標(biāo)引通用評價模型研究[A];2007年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2007年

2 王蘭成;;基于MM最小回溯和詞義規(guī)則的知識標(biāo)引研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2003年

3 劉桐菊;于浩;趙鐵軍;;基于標(biāo)引技術(shù)的特定領(lǐng)域XML文本自動生成[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

4 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標(biāo)引的最小推進(jìn)分詞算法及其實(shí)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2002年

5 章成志;;基于集成學(xué)習(xí)的自動標(biāo)引方法研究[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

6 謝坤生;;關(guān)于后四年索引工作趨向的幾點(diǎn)思考[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

7 賀七一;;黃頁分類計(jì)算機(jī)自動標(biāo)引的實(shí)現(xiàn)[A];2004年度中國索引學(xué)會年會暨學(xué)術(shù)討論會論文集[C];2004年

8 彭莉;;研制中醫(yī)藥文獻(xiàn)自動標(biāo)引系統(tǒng)的設(shè)想[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

9 李素建;李蕓;紀(jì)鷺寧;徐睿峰;;詞典匹配和串頻統(tǒng)計(jì)相結(jié)合在自動主題分析中的應(yīng)用[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

10 薛春香;夏祖奇;侯漢清;;基于語料和基于標(biāo)引經(jīng)驗(yàn)的自動分類模式比較[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

相關(guān)重要報(bào)紙文章 前5條

1 王萍;Web文本的知識化管理[N];計(jì)算機(jī)世界;2006年

2 李蓬濤;非結(jié)構(gòu)化視頻搜索技術(shù)[N];計(jì)算機(jī)世界;2006年

3 吳文劍;加強(qiáng)信息建設(shè) 提升服務(wù)水平[N];山西經(jīng)濟(jì)日報(bào);2006年

4 本報(bào)記者 張亮;讓網(wǎng)絡(luò)生活更輕松[N];科技日報(bào);2006年

5 記者  劉艷華;檢驗(yàn)檢疫文書與檔案管理有望“電子”聯(lián)姻[N];中國國門時報(bào);2006年

相關(guān)博士學(xué)位論文 前4條

1 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年

2 段建勇;多詞表達(dá)抽取及其應(yīng)用[D];上海交通大學(xué);2007年

3 楊為民;基于場論的信息檢索模型的研究[D];安徽大學(xué);2007年

4 儲節(jié)旺;企業(yè)應(yīng)對危機(jī)的知識管理問題研究:能力、體系、機(jī)制與技術(shù)[D];南昌大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 杲曉鋒;基于N元分析與詞頻統(tǒng)計(jì)的文本復(fù)合標(biāo)引研究[D];南開大學(xué);2009年

2 崔濤;基于檢準(zhǔn)率分析中文自動標(biāo)引方式存在問題及對策[D];河北大學(xué);2011年

3 鄒杰利;基于條件隨機(jī)場的中文圖書主題自動標(biāo)引研究[D];南京大學(xué);2013年

4 羅綿川;基于PS格式數(shù)字報(bào)刊標(biāo)引反解技術(shù)研究[D];華南理工大學(xué);2010年

5 張敏;生物學(xué)文獻(xiàn)的自動標(biāo)引系統(tǒng)的研究與開發(fā)[D];東華大學(xué);2006年

6 黃默麗;NLP技術(shù)在中文全文信息處理中的應(yīng)用研究[D];鄭州大學(xué);2010年

7 袁文勤;基于本體的生物學(xué)文獻(xiàn)網(wǎng)絡(luò)知識管理系統(tǒng)研究[D];東華大學(xué);2006年

8 杜慧平;自然語言敘詞表自動構(gòu)建研究[D];南京農(nóng)業(yè)大學(xué);2007年

9 王爽;基于知識庫的自動分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];廈門大學(xué);2007年

10 康艷;中文圖書內(nèi)容索引計(jì)算機(jī)編制的研究與系統(tǒng)實(shí)現(xiàn)[D];南京農(nóng)業(yè)大學(xué);2008年



本文編號:2739067

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2739067.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ad1b0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com