專(zhuān)家主頁(yè)的信息塊劃分及特征提取研究
【圖文】:
情報(bào)理論與實(shí)踐(ITAkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk)圖1兩種基本信息塊形式3專(zhuān)家主頁(yè)信息塊特征識(shí)別3.1特征描述及選擇的難點(diǎn)由于特征描述在整個(gè)機(jī)器學(xué)習(xí)過(guò)程中起著至關(guān)重要的作用,因此如何將信息塊特征充分詳盡地描述出來(lái)也成為機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。其難點(diǎn)主要包括以下3點(diǎn)。3.1.1特征復(fù)雜多變,歸納總結(jié)存在困難對(duì)信息塊實(shí)體特征的歸納總結(jié)是整個(gè)特征描述過(guò)程中的最大難點(diǎn)。由于專(zhuān)家主頁(yè)結(jié)構(gòu)復(fù)雜、規(guī)律性較差,不同的專(zhuān)家擁有不同的喜好,因此整個(gè)專(zhuān)家主頁(yè)的布局設(shè)計(jì)也存在著很大區(qū)別。在信息塊實(shí)體上,有些專(zhuān)家可能喜歡將研究興趣和研究項(xiàng)目放在一起來(lái)描述,使兩塊內(nèi)容整體屬于“Re-search”塊下;而有些專(zhuān)家則喜歡將研究興趣、研究項(xiàng)目和出版物信息分開(kāi)列出,使整個(gè)專(zhuān)家主頁(yè)看起來(lái)更規(guī)范;還有些專(zhuān)家則喜歡將研究項(xiàng)目與出版物信息放在一起描述,將在每個(gè)項(xiàng)目中所發(fā)表的文章一一列出,從時(shí)間上對(duì)出版物和研究項(xiàng)目進(jìn)行劃分。3.1.2將文字特征描述轉(zhuǎn)化為機(jī)器可識(shí)別的語(yǔ)言存在困難將特征歸納總結(jié)之后,如何將文字描述轉(zhuǎn)化為機(jī)器可識(shí)別的語(yǔ)言成為另一難題。由于不同特征含有不同的結(jié)構(gòu)特征、文本特征和視覺(jué)特征,描述時(shí)需要將這些特征進(jìn)行組合描述。而不同的人對(duì)特征的描述不盡相同,這就給程序員帶來(lái)了巨大困難:一方面要理解前面歸納總結(jié)出來(lái)的特征;另一方面又要讓機(jī)器也理解這些特征。因此,有時(shí)為了減少程序員的工作量,會(huì)將特征進(jìn)行簡(jiǎn)化,但這也降低了信息塊識(shí)別的準(zhǔn)確率。3.1.3特征篩選存在困難將特征轉(zhuǎn)換為機(jī)器語(yǔ)言后,接下來(lái)就是將特征送到分類(lèi)器中進(jìn)行訓(xùn)練,使分類(lèi)器得以“記妝這些特征,即分類(lèi)器的訓(xùn)練過(guò)程。但是如果想
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁(yè)正文信息提取算法研究[J];計(jì)算機(jī)應(yīng)用;2007年S1期
2 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計(jì)與正文特征的中文網(wǎng)頁(yè)正文抽取研究[J];中文信息學(xué)報(bào);2009年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期
2 柳永念;鐘誠(chéng);焦小焦;;基于單元識(shí)別的網(wǎng)頁(yè)信息抽取方法[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
3 張春元;;基于CRFs的新聞網(wǎng)頁(yè)主題內(nèi)容自動(dòng)抽取方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
4 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測(cè)中的應(yīng)用[J];中國(guó)國(guó)境衛(wèi)生檢疫雜志;2012年04期
5 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁(yè)正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期
6 繆霖;邱會(huì)中;;Web頁(yè)面自頂向下的正文信息定位算法[J];計(jì)算機(jī)工程;2010年13期
7 黃玲;陳龍;;基于網(wǎng)頁(yè)分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期
8 范純龍;夏佳;肖昕;呂紅偉;徐蕾;;基于功能語(yǔ)義單元的博客評(píng)論抽取技術(shù)[J];計(jì)算機(jī)應(yīng)用;2011年09期
9 王舒;朱敏;張明;牛顥;趙瑜;;一種基于特征符號(hào)的網(wǎng)頁(yè)主題信息抽取方法[J];計(jì)算機(jī)應(yīng)用研究;2009年12期
10 劉鵬博;車(chē)海燕;陳偉;;知識(shí)抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年09期
相關(guān)會(huì)議論文 前1條
1 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)博士學(xué)位論文 前1條
1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 呂芳芳;基于查詢(xún)擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問(wèn)題的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2011年
3 李亞洲;文本分類(lèi)語(yǔ)料庫(kù)自動(dòng)構(gòu)建系統(tǒng)的研究與改進(jìn)[D];武漢理工大學(xué);2011年
4 侯明燕;基于網(wǎng)頁(yè)信息定位的數(shù)據(jù)抽取技術(shù)的研究[D];暨南大學(xué);2011年
5 郭力;Web正文信息抽取與面向?qū)哟谓Y(jié)構(gòu)的分類(lèi)技術(shù)研究[D];華南理工大學(xué);2011年
6 秦樹(shù)偉;面向移動(dòng)頁(yè)面自適應(yīng)平臺(tái)的Web結(jié)構(gòu)特征聚類(lèi)算法[D];中國(guó)海洋大學(xué);2011年
7 呂婷婷;統(tǒng)計(jì)和規(guī)則相結(jié)合的新聞網(wǎng)頁(yè)分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
8 王燕;網(wǎng)站敏感信息監(jiān)視系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2008年
9 衛(wèi)莉莉;面向領(lǐng)域的Web文本采集與分類(lèi)[D];西安建筑科技大學(xué);2011年
10 盧振;面向教育新聞的主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
2 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
3 梅雪;程學(xué)旗;郭巖;張剛;丁國(guó)棟;;一種全自動(dòng)生成網(wǎng)頁(yè)信息抽取Wrapper的方法[J];中文信息學(xué)報(bào);2008年01期
4 楊少華;林海略;韓燕波;;針對(duì)模板生成網(wǎng)頁(yè)的一種數(shù)據(jù)自動(dòng)抽取方法(英文)[J];軟件學(xué)報(bào);2008年02期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 查志琴;;基于行模式的網(wǎng)頁(yè)信息提取算法[J];常州工學(xué)院學(xué)報(bào);2007年04期
2 孫桂煌;劉發(fā)升;;基于正文特征的網(wǎng)頁(yè)正文信息提取方法[J];現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版);2008年09期
3 許有田;趙景民;郭興旺;;西安市SPOT2.5m衛(wèi)星影像數(shù)據(jù)處理的實(shí)踐與探討[J];測(cè)繪科學(xué);2008年S1期
4 徐恩元;徐建華;;文獻(xiàn)老化理論研究[J];四川圖書(shū)館學(xué)報(bào);2006年06期
5 朱岱力;羅永新;徐華;任成高;;以Pro/E特征為平臺(tái)的CAPP系統(tǒng)開(kāi)發(fā)研究[J];現(xiàn)代制造工程;2009年06期
6 高月,梁本亮;淺談網(wǎng)絡(luò)信息挖掘[J];通信電源技術(shù);2004年01期
7 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年12期
8 宮鵬;黎夏;徐冰;;高分辨率影像解譯理論與應(yīng)用方法中的一些研究問(wèn)題[J];遙感學(xué)報(bào);2006年01期
9 邱清盈;鄭國(guó)民;馮培恩;武建偉;;基于正則表達(dá)式的專(zhuān)利信息提取方法研究[J];中國(guó)機(jī)械工程;2007年19期
10 萬(wàn)樂(lè);左萬(wàn)利;高金;;基于主題的網(wǎng)頁(yè)噪音去除機(jī)制[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年08期
相關(guān)會(huì)議論文 前10條
1 李帥;黃璽瑛;董家瑞;;一種基于神經(jīng)網(wǎng)絡(luò)的特定文本信息提取方法[A];第十屆中國(guó)科協(xié)年會(huì)論文集(一)[C];2008年
2 李偉蘭;龐小平;嚴(yán)易華;;城市影像地圖制圖綜合初探[A];中國(guó)測(cè)繪學(xué)會(huì)第九次全國(guó)會(huì)員代表大會(huì)暨學(xué)會(huì)成立50周年紀(jì)念大會(huì)論文集[C];2009年
3 袁克虹;陳自強(qiáng);劉維湘;賈少微;肖平;;計(jì)算機(jī)輔助腦部MRI影像診斷系統(tǒng)的研制[A];中國(guó)生物醫(yī)學(xué)工程進(jìn)展——2007中國(guó)生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2007年
4 邢莉新;許惠平;;衛(wèi)星遙感數(shù)據(jù)信息提取新方法研究[A];西部大開(kāi)發(fā) 科教先行與可持續(xù)發(fā)展——中國(guó)科協(xié)2000年學(xué)術(shù)年會(huì)文集[C];2000年
5 彭天強(qiáng);邵美珍;;基于神經(jīng)網(wǎng)絡(luò)的K-L變換方法研究[A];中國(guó)圖象圖形學(xué)會(huì)第十屆全國(guó)圖像圖形學(xué)術(shù)會(huì)議(CIG’2001)和第一屆全國(guó)虛擬現(xiàn)實(shí)技術(shù)研討會(huì)(CVR’2001)論文集[C];2001年
6 蔡建峰;;基于管理層次的信息供給策略[A];2002年中國(guó)管理科學(xué)學(xué)術(shù)會(huì)議論文集[C];2002年
7 劉振民;李四海;韓震;;HY-1衛(wèi)星資料懸浮泥沙濃度信息提取應(yīng)用系統(tǒng)的研制[A];第十五屆全國(guó)遙感技術(shù)學(xué)術(shù)交流會(huì)論文摘要集[C];2005年
8 王小軍;李永森;;海南基礎(chǔ)地理信息數(shù)據(jù)集建設(shè)概要[A];全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第二十一次學(xué)術(shù)信息交流會(huì)論文集[C];2007年
9 陳永慧;李小娟;胡德勇;;京津冀都市圈城市擴(kuò)展遙感信息提取及動(dòng)態(tài)變化分析[A];地理學(xué)與生態(tài)文明建設(shè)——中國(guó)地理學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文摘要集[C];2008年
10 楊俊;廖聞劍;彭艷兵;;一類(lèi)沖突證據(jù)的融合方法[A];第十屆中國(guó)科協(xié)年會(huì)信息化與社會(huì)發(fā)展學(xué)術(shù)討論會(huì)分會(huì)場(chǎng)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 曠;《基于項(xiàng)目的軟件工程:面向?qū)ο笱芯糠椒ā穂N];中國(guó)圖書(shū)商報(bào);2002年
2 山東大學(xué)管理學(xué)院 安玉紅邋溫德成;請(qǐng)來(lái)顧客談需求[N];中國(guó)質(zhì)量報(bào);2007年
3 王黎芳;口述一部家庭史[N];中國(guó)婦女報(bào);2001年
4 本報(bào)記者 馬文方;不拘一格降人才[N];中國(guó)計(jì)算機(jī)報(bào);2001年
5 朱軍輝;關(guān)注戰(zhàn)術(shù)研究方法的創(chuàng)新[N];中國(guó)國(guó)防報(bào);2009年
6 沈占鋒;遙感影像信息提取與分析[N];計(jì)算機(jī)世界;2006年
7 許道敏;警惕權(quán)力崇拜及其六種表現(xiàn)形式[N];檢察日?qǐng)?bào);2005年
8 王強(qiáng);也談“心”的概念及其研究方法[N];中國(guó)中醫(yī)藥報(bào);2001年
9 李培林;村落進(jìn)入和研究方法[N];中國(guó)社會(huì)科學(xué)院院報(bào);2004年
10 鞏鵬 王忠裕;科學(xué)的研究方法最重要[N];健康報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 武子玉;礦物近紅外光譜信息提取及應(yīng)用研究[D];吉林大學(xué);2005年
2 張旗;基于屬性的圖像分類(lèi)研究[D];大連海事大學(xué);2005年
3 張立福;通用光譜模式分解算法及植被指數(shù)的建立[D];武漢大學(xué);2005年
4 蘇彩紅;墻地磚質(zhì)量自動(dòng)檢測(cè)技術(shù)的研究[D];華南理工大學(xué);2004年
5 宋余慶;醫(yī)學(xué)圖像數(shù)據(jù)挖掘若干技術(shù)研究[D];東南大學(xué);2005年
6 宋晴;基于液滴分析技術(shù)和液滴指紋圖的液體識(shí)別方法的研究[D];天津大學(xué);2005年
7 吳婷;自發(fā)腦電腦機(jī)接口模式識(shí)別關(guān)鍵技術(shù)與實(shí)驗(yàn)研究[D];上海交通大學(xué);2008年
8 孫真真;基于光學(xué)區(qū)雷達(dá)目標(biāo)二維像的目標(biāo)散射特征提取的理論及方法研究[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2001年
9 呂苗榮;信息提取與礦山信息系統(tǒng)的研究開(kāi)發(fā)[D];中南大學(xué);2003年
10 王承;基于神經(jīng)網(wǎng)絡(luò)的模擬電路故障診斷方法研究[D];電子科技大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 茍全登;基于XML的半結(jié)構(gòu)化Web信息提取的研究[D];電子科技大學(xué);2006年
2 田紀(jì)亞;基于Matlab在指紋識(shí)別系統(tǒng)中的應(yīng)用研究[D];吉林大學(xué);2008年
3 田偉;側(cè)面人臉圖像識(shí)別系統(tǒng)的研究[D];哈爾濱工程大學(xué);2005年
4 謝鋒;基于小波包與數(shù)學(xué)形態(tài)學(xué)的道路信息提取研究[D];長(zhǎng)沙理工大學(xué);2005年
5 萬(wàn)金鵬;史華慈毛澤東研究評(píng)析[D];陜西師范大學(xué);2007年
6 呂鷺;中國(guó)英語(yǔ)與中式英語(yǔ)的研究?jī)?nèi)容及方法對(duì)比研究[D];華中科技大學(xué);2007年
7 烏吉木;蒙古語(yǔ)青海和碩特土語(yǔ)的特殊詞語(yǔ)研究[D];內(nèi)蒙古師范大學(xué);2008年
8 曾紅梅;情緒圖片視覺(jué)誘發(fā)EEG特征提取與分析[D];天津大學(xué);2012年
9 許勇;基于百科詞典的知識(shí)獲取系統(tǒng)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2001年
10 張磊;基于Internet的智能信息挖掘系統(tǒng)建模及關(guān)鍵技術(shù)研究[D];西北工業(yè)大學(xué);2003年
本文編號(hào):2728968
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2728968.html