基于Web的新詞語發(fā)現(xiàn)研究
發(fā)布時(shí)間:2022-01-02 08:47
隨著互聯(lián)網(wǎng)的興起,Internet幾乎進(jìn)入了人們生活的各個(gè)角落,在給人們帶來巨大便利的同時(shí)也不斷影響著人們所使用的語言,特別是語言中的詞語,越來越多的中文新詞語出現(xiàn)在網(wǎng)絡(luò)上,影響著人們的日常交流用語。中文新詞的出現(xiàn)豐富了語言的色彩,同時(shí)也給詞庫更新、自然語言處理、詞典編纂等領(lǐng)域帶來了很多困難。鑒于當(dāng)前新詞語并沒有一個(gè)準(zhǔn)確的、公認(rèn)的定義,如何快速、準(zhǔn)確的查找出新詞語成了一個(gè)比較麻煩的問題。本文根據(jù)語言學(xué)和詞法分析中關(guān)于新詞語的定義,將新詞語分為詞形新的詞語、命名實(shí)體和意義用法發(fā)生變化的已有詞語這三大類。本文主要研究的是對(duì)于詞形新的詞語的自動(dòng)發(fā)現(xiàn)。從當(dāng)前來看,國(guó)內(nèi)外對(duì)于詞形新的新詞語識(shí)別研究還不多見,而且現(xiàn)有的研究提取的新詞語一般都是限于詞長(zhǎng)或者是限于領(lǐng)域。本文提出了自己的方法——從互聯(lián)網(wǎng)上采集大量的新聞網(wǎng)頁,然后從新聞內(nèi)容中提取新詞語。我們的目標(biāo)是從全局角度尋找在指定日期后出現(xiàn)的不限領(lǐng)域和詞長(zhǎng)的新詞語。本文提出的方法實(shí)現(xiàn)的系統(tǒng)分為三個(gè)部分:網(wǎng)頁采集、網(wǎng)頁分析和新詞語的提取。在網(wǎng)頁采集部分用網(wǎng)頁爬蟲程序下載指定網(wǎng)頁;網(wǎng)頁分析部分提取網(wǎng)頁的新聞內(nèi)容和新聞日期,對(duì)內(nèi)容用分詞程序進(jìn)行分詞,重復(fù)串...
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新浪新聞網(wǎng)頁經(jīng)過我們的研究發(fā)現(xiàn)每個(gè)新聞網(wǎng)站都有一些網(wǎng)頁格式模板,這些模板會(huì)定期更新
是不被顯示在正文中的,在此標(biāo)簽中可以插入其它標(biāo)記,用以說明文件的標(biāo)題和整個(gè)文件的一些公公屬性。 <BODY></BODY>標(biāo)簽之間的文本是正文,是在瀏覽器要顯示的頁面內(nèi)容仁l幻。圖3一14中的新聞網(wǎng)頁源文件結(jié)構(gòu)如下圖所示:(份DOCT甲 PEhtnlPUBLIC”一 llU3CllDTDXHT月 L1.0TransitionalllEH,,”httP:11”叨”二3.orgITRlxhtmlllDTDlxhtnll一tran,itional.dtd”>《 ht.1xmlns二”httP:11毋.”二 3.orgll999lxhtnl”)《he己d)《 .etahttp一eq<titie>國(guó)資委ui妙=”Content一T夢(mèng)Pe”content=”text/htnl;eharset=gb2312”I):78家央企將退出房地產(chǎn)業(yè)務(wù)浙聞中心浙浪網(wǎng) </title》《Ihe〕d)《bod,id二”conBodg”><卜一sUD自_CODE_STnRT一) <diuelas弓=”Nain”)<,一內(nèi)容列加gin一) <diUCl日55=”blkContainer,’>{<卜一正文塊begin一) ;<diUCl日55=”blkContainerPblk”> ;;(diUel日55=”blkContainersbl阮.,》;;;:};<di”class二”artlnfo”》 (SPanid=”art_Souree’ .>(ahref=”http:11.樹二sina.eon.cn”)httP:11”“”.sina.con.en<la><IsPan>勝nbsp;勝 nb5P;(‘ Panid=二。 ubdate二)日硯國(guó)目目曰翻日15:07(lsoan)‘nbsp:勝nbs。:《 soanid=二 nediana.e’·>(anref=”nttp:Ilhouse·people·co二cnl‘61111116耳紹·nt凡1”target=”_Dlan“”少八氏陰‘Ia之 (ahref=”httP:/lhouse·pe0Ple·co二cnlgBllll716匆助·ht.1”target=’._blank”>《la》(lsPan>(Idiu)《p>3月1黝翼黔糯燃翼豁雛提孵除家占兀16在︸圖3一巧網(wǎng)頁結(jié)構(gòu)示意圖從圖3一15的網(wǎng)頁結(jié)構(gòu)示意圖我們分析發(fā)現(xiàn)新聞的內(nèi)容都是整段整段的位于html標(biāo)簽<P》二</p>之間
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)新詞的產(chǎn)生與發(fā)展研究[J]. 李妍妍. 新聞愛好者. 2009(03)
[2]基于統(tǒng)計(jì)-規(guī)則方法的網(wǎng)頁層次分類技術(shù)研究[J]. 譚金波,楊曉江,李藝. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[3]一種基于大規(guī)模語料的新詞識(shí)別方法[J]. 賀敏,龔才春,張華平,程學(xué)旗. 計(jì)算機(jī)工程與應(yīng)用. 2007(21)
[4]一種利用BC方法的關(guān)鍵詞自動(dòng)提取算法研究[J]. 張敏,耿煥同,王煦法. 小型微型計(jì)算機(jī)系統(tǒng). 2007(01)
[5]一種快速獲取領(lǐng)域新詞語的新方法[J]. 劉華. 中文信息學(xué)報(bào). 2006(05)
[6]基于大規(guī)模語料的新詞語識(shí)別方法[J]. 施水才,俞鴻魁,呂學(xué)強(qiáng),李渝勤. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2006(03)
[7]基于大規(guī)模語料庫的新詞檢測(cè)[J]. 崔世起,劉群,孟遙,于浩,西野文人. 計(jì)算機(jī)研究與發(fā)展. 2006(05)
[8]詞表的自動(dòng)豐富——從元數(shù)據(jù)中提取關(guān)鍵詞及其定位[J]. 王軍. 中文信息學(xué)報(bào). 2005(06)
[9]一個(gè)中文新詞識(shí)別特征的研究[J]. 秦浩偉,步豐林. 計(jì)算機(jī)工程. 2004(S1)
[10]面向Internet的中文新詞語檢測(cè)[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報(bào). 2004(06)
碩士論文
[1]基于詞語網(wǎng)絡(luò)的關(guān)鍵詞自動(dòng)提取方法及在中文網(wǎng)頁分類中的應(yīng)用研究[D]. 溫安國(guó).復(fù)旦大學(xué) 2009
[2]中文名實(shí)體識(shí)別與新詞發(fā)現(xiàn)技術(shù)研究[D]. 劉利剛.哈爾濱工業(yè)大學(xué) 2007
[3]中文新詞語自動(dòng)檢測(cè)研究[D]. 鄒綱.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2004
[4]漢語語境下的網(wǎng)絡(luò)新詞語研究[D]. 李薇薇.汕頭大學(xué) 2003
本文編號(hào):3563871
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新浪新聞網(wǎng)頁經(jīng)過我們的研究發(fā)現(xiàn)每個(gè)新聞網(wǎng)站都有一些網(wǎng)頁格式模板,這些模板會(huì)定期更新
是不被顯示在正文中的,在此標(biāo)簽中可以插入其它標(biāo)記,用以說明文件的標(biāo)題和整個(gè)文件的一些公公屬性。 <BODY></BODY>標(biāo)簽之間的文本是正文,是在瀏覽器要顯示的頁面內(nèi)容仁l幻。圖3一14中的新聞網(wǎng)頁源文件結(jié)構(gòu)如下圖所示:(份DOCT甲 PEhtnlPUBLIC”一 llU3CllDTDXHT月 L1.0TransitionalllEH,,”httP:11”叨”二3.orgITRlxhtmlllDTDlxhtnll一tran,itional.dtd”>《 ht.1xmlns二”httP:11毋.”二 3.orgll999lxhtnl”)《he己d)《 .etahttp一eq<titie>國(guó)資委ui妙=”Content一T夢(mèng)Pe”content=”text/htnl;eharset=gb2312”I):78家央企將退出房地產(chǎn)業(yè)務(wù)浙聞中心浙浪網(wǎng) </title》《Ihe〕d)《bod,id二”conBodg”><卜一sUD自_CODE_STnRT一) <diuelas弓=”Nain”)<,一內(nèi)容列加gin一) <diUCl日55=”blkContainer,’>{<卜一正文塊begin一) ;<diUCl日55=”blkContainerPblk”> ;;(diUel日55=”blkContainersbl阮.,》;;;:};<di”class二”artlnfo”》 (SPanid=”art_Souree’ .>(ahref=”http:11.樹二sina.eon.cn”)httP:11”“”.sina.con.en<la><IsPan>勝nbsp;勝 nb5P;(‘ Panid=二。 ubdate二)日硯國(guó)目目曰翻日15:07(lsoan)‘nbsp:勝nbs。:《 soanid=二 nediana.e’·>(anref=”nttp:Ilhouse·people·co二cnl‘61111116耳紹·nt凡1”target=”_Dlan“”少八氏陰‘Ia之 (ahref=”httP:/lhouse·pe0Ple·co二cnlgBllll716匆助·ht.1”target=’._blank”>《la》(lsPan>(Idiu)《p>3月1黝翼黔糯燃翼豁雛提孵除家占兀16在︸圖3一巧網(wǎng)頁結(jié)構(gòu)示意圖從圖3一15的網(wǎng)頁結(jié)構(gòu)示意圖我們分析發(fā)現(xiàn)新聞的內(nèi)容都是整段整段的位于html標(biāo)簽<P》二</p>之間
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)新詞的產(chǎn)生與發(fā)展研究[J]. 李妍妍. 新聞愛好者. 2009(03)
[2]基于統(tǒng)計(jì)-規(guī)則方法的網(wǎng)頁層次分類技術(shù)研究[J]. 譚金波,楊曉江,李藝. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[3]一種基于大規(guī)模語料的新詞識(shí)別方法[J]. 賀敏,龔才春,張華平,程學(xué)旗. 計(jì)算機(jī)工程與應(yīng)用. 2007(21)
[4]一種利用BC方法的關(guān)鍵詞自動(dòng)提取算法研究[J]. 張敏,耿煥同,王煦法. 小型微型計(jì)算機(jī)系統(tǒng). 2007(01)
[5]一種快速獲取領(lǐng)域新詞語的新方法[J]. 劉華. 中文信息學(xué)報(bào). 2006(05)
[6]基于大規(guī)模語料的新詞語識(shí)別方法[J]. 施水才,俞鴻魁,呂學(xué)強(qiáng),李渝勤. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2006(03)
[7]基于大規(guī)模語料庫的新詞檢測(cè)[J]. 崔世起,劉群,孟遙,于浩,西野文人. 計(jì)算機(jī)研究與發(fā)展. 2006(05)
[8]詞表的自動(dòng)豐富——從元數(shù)據(jù)中提取關(guān)鍵詞及其定位[J]. 王軍. 中文信息學(xué)報(bào). 2005(06)
[9]一個(gè)中文新詞識(shí)別特征的研究[J]. 秦浩偉,步豐林. 計(jì)算機(jī)工程. 2004(S1)
[10]面向Internet的中文新詞語檢測(cè)[J]. 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇. 中文信息學(xué)報(bào). 2004(06)
碩士論文
[1]基于詞語網(wǎng)絡(luò)的關(guān)鍵詞自動(dòng)提取方法及在中文網(wǎng)頁分類中的應(yīng)用研究[D]. 溫安國(guó).復(fù)旦大學(xué) 2009
[2]中文名實(shí)體識(shí)別與新詞發(fā)現(xiàn)技術(shù)研究[D]. 劉利剛.哈爾濱工業(yè)大學(xué) 2007
[3]中文新詞語自動(dòng)檢測(cè)研究[D]. 鄒綱.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2004
[4]漢語語境下的網(wǎng)絡(luò)新詞語研究[D]. 李薇薇.汕頭大學(xué) 2003
本文編號(hào):3563871
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/3563871.html
最近更新
教材專著