天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

海洋文獻(xiàn)分類中極小化標(biāo)注問題的研究

發(fā)布時(shí)間:2021-11-20 17:32
  高效率的進(jìn)行海洋文獻(xiàn)的分類對(duì)海洋科學(xué)研究具有重要意義。目前,解決此問題較為成熟的技術(shù)是有監(jiān)督的文本分類技術(shù)。但其往往存在人工標(biāo)注量太大的缺點(diǎn);此外,有標(biāo)注資源代價(jià)昂貴,而大量無標(biāo)注資源沒有加以利用。半監(jiān)督機(jī)器學(xué)習(xí)方法能根據(jù)少量有標(biāo)注資源從大量無標(biāo)注資源中獲取有用信息,有效降低人工標(biāo)注量。因此,本文運(yùn)用半監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行海洋文獻(xiàn)分類中的極小化標(biāo)注問題的研究。本文從描述文本分類和機(jī)器學(xué)習(xí)的基本概念入手,對(duì)基于機(jī)器學(xué)習(xí)的文本分類基礎(chǔ)技術(shù)——文本的表示、分類方法和效果評(píng)估三部分內(nèi)容逐一進(jìn)行了討論和介紹,并根據(jù)已有實(shí)驗(yàn)結(jié)果選擇了最佳的分類方法;接著通過對(duì)半監(jiān)督機(jī)器學(xué)習(xí)問題的描述,引出了本文所采用的核心算法——協(xié)同訓(xùn)練(co-training)算法;最后,使用c#.net語言編程實(shí)現(xiàn)了基于co-training算法的海洋文獻(xiàn)分類極小化標(biāo)注,這是本文研究的核心問題。本文的主要工作和創(chuàng)新點(diǎn)有:(1)本文給出了基于協(xié)同訓(xùn)練算法的海洋文獻(xiàn)分類的詳細(xì)流程,詳細(xì)設(shè)計(jì)了六大功能模塊,包括文本預(yù)處理、特征分割、訓(xùn)練、預(yù)測(cè)、挑選特征和評(píng)估模塊。其中,特征分割模塊是co-training方法區(qū)別于傳統(tǒng)的有監(jiān)督分類... 

【文章來源】:中國海洋大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:72 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

海洋文獻(xiàn)分類中極小化標(biāo)注問題的研究


文本分類系統(tǒng)的工作流程

最優(yōu)分類


如果將某一直線兩側(cè)的樣本點(diǎn)分為正類和負(fù)類,則推斷點(diǎn)x所對(duì)應(yīng)的類別 y 的決策函數(shù)如下:y = f ( x ) = sgn( w x + b), (其中 sgn 為符號(hào)函數(shù),有1, 0sgn( )1, 0aaa = ≥= = < (函數(shù)的定義,很明顯 y 的取值要么是 1,要么是-1,也就是說 1 和-1 兩類。此時(shí)的分類問題是:對(duì)于任意給定的一個(gè)新的輸據(jù)訓(xùn)練集推斷它所對(duì)應(yīng)的輸出 y 是 1 還是-1。這是線性可分的分的工作就是要求出w和 b,從而確定出最優(yōu)分類線,使其不但錯(cuò)誤地分開,而且要使兩類樣本點(diǎn)之間的間隔距離最大。

線性不可分,函數(shù)定義,樣本點(diǎn),非線性變換


(1)這兩條直線 H1、H2 也能夠?qū)深悩颖军c(diǎn)完全分開,H1 和 H2 之間沒有任何樣本點(diǎn)存在;(2)H1 與 H2 之間的距離是所有平行于 H 且滿足條件(1)的兩條直線中最大的。當(dāng)分類線 H 能夠使得滿足上述條件(1)(2)的兩條直線 H1、H2 之間的距離最大化的時(shí)候,H 就是該二元分類問題的最優(yōu)分類線。此時(shí),那些正好在直線H1 和 H2 上的樣本點(diǎn),就叫做“支持向量”。若將情況推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。如圖 2-3 所示

【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)環(huán)境下海洋院校圖書館海洋科學(xué)知識(shí)服務(wù)體系模式研究[J]. 邵艷.  浙江海洋學(xué)院學(xué)報(bào)(人文科學(xué)版). 2007(03)
[2]機(jī)器學(xué)習(xí)的發(fā)展現(xiàn)狀及其相關(guān)研究[J]. 蘇淑玲.  肇慶學(xué)院學(xué)報(bào). 2007(02)
[3]文本分類綜述[J]. 靳小波.  自動(dòng)化博覽. 2006(S1)
[4]基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 蘇金樹,張博鋒,徐昕.  軟件學(xué)報(bào). 2006(09)
[5]使用最大熵模型進(jìn)行中文文本分類[J]. 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā).  計(jì)算機(jī)研究與發(fā)展. 2005(01)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報(bào). 2004(01)
[7]基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張東禮,汪東升,鄭緯民.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(09)
[8]關(guān)于文本特征抽取新方法的研究[J]. 李凡,魯明羽,陸玉昌.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(07)

博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005

碩士論文
[1]海洋文獻(xiàn)元數(shù)據(jù)的語義標(biāo)注技術(shù)研究[D]. 王浩然.中國海洋大學(xué) 2008
[2]基于貝葉斯的網(wǎng)頁文本分類算法[D]. 張匯.華中科技大學(xué) 2004



本文編號(hào):3507808

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3507808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cc026***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com