天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

專家主頁的信息塊劃分及特征提取研究

發(fā)布時間:2020-06-25 06:06
【摘要】:挖掘?qū)<抑黜撝械男畔⒕哂兄匾难芯恳饬x,因此如何描述專家主頁的特征去識別實體內(nèi)容成為挖掘過程中最為關(guān)鍵的一步。文章對專家主頁中的主要信息塊進(jìn)行劃分,介紹了識別信息塊的主要方法。利用Dreamweaver軟件對2 000個專家主頁進(jìn)行標(biāo)注,然后利用文本特征、視覺特征以及結(jié)構(gòu)特征來提取專家主頁中專家基本信息、研究興趣、研究項目和出版物信息的特征,進(jìn)行特征構(gòu)建。
【圖文】:

信息塊,專家,歸納總結(jié),研究項目


情報理論與實踐(ITAkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk)圖1兩種基本信息塊形式3專家主頁信息塊特征識別3.1特征描述及選擇的難點由于特征描述在整個機(jī)器學(xué)習(xí)過程中起著至關(guān)重要的作用,因此如何將信息塊特征充分詳盡地描述出來也成為機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點和難點。其難點主要包括以下3點。3.1.1特征復(fù)雜多變,歸納總結(jié)存在困難對信息塊實體特征的歸納總結(jié)是整個特征描述過程中的最大難點。由于專家主頁結(jié)構(gòu)復(fù)雜、規(guī)律性較差,不同的專家擁有不同的喜好,因此整個專家主頁的布局設(shè)計也存在著很大區(qū)別。在信息塊實體上,有些專家可能喜歡將研究興趣和研究項目放在一起來描述,使兩塊內(nèi)容整體屬于“Re-search”塊下;而有些專家則喜歡將研究興趣、研究項目和出版物信息分開列出,使整個專家主頁看起來更規(guī)范;還有些專家則喜歡將研究項目與出版物信息放在一起描述,將在每個項目中所發(fā)表的文章一一列出,從時間上對出版物和研究項目進(jìn)行劃分。3.1.2將文字特征描述轉(zhuǎn)化為機(jī)器可識別的語言存在困難將特征歸納總結(jié)之后,如何將文字描述轉(zhuǎn)化為機(jī)器可識別的語言成為另一難題。由于不同特征含有不同的結(jié)構(gòu)特征、文本特征和視覺特征,描述時需要將這些特征進(jìn)行組合描述。而不同的人對特征的描述不盡相同,這就給程序員帶來了巨大困難:一方面要理解前面歸納總結(jié)出來的特征;另一方面又要讓機(jī)器也理解這些特征。因此,有時為了減少程序員的工作量,會將特征進(jìn)行簡化,但這也降低了信息塊識別的準(zhǔn)確率。3.1.3特征篩選存在困難將特征轉(zhuǎn)換為機(jī)器語言后,接下來就是將特征送到分類器中進(jìn)行訓(xùn)練,使分類器得以“記妝這些特征,即分類器的訓(xùn)練過程。但是如果想

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁正文信息提取算法研究[J];計算機(jī)應(yīng)用;2007年S1期

2 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學(xué)報;2009年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報;2010年03期

2 柳永念;鐘誠;焦小焦;;基于單元識別的網(wǎng)頁信息抽取方法[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年05期

3 張春元;;基于CRFs的新聞網(wǎng)頁主題內(nèi)容自動抽取方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期

4 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測中的應(yīng)用[J];中國國境衛(wèi)生檢疫雜志;2012年04期

5 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計算機(jī)工程與應(yīng)用;2009年25期

6 繆霖;邱會中;;Web頁面自頂向下的正文信息定位算法[J];計算機(jī)工程;2010年13期

7 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計算機(jī)應(yīng)用;2008年S2期

8 范純龍;夏佳;肖昕;呂紅偉;徐蕾;;基于功能語義單元的博客評論抽取技術(shù)[J];計算機(jī)應(yīng)用;2011年09期

9 王舒;朱敏;張明;牛顥;趙瑜;;一種基于特征符號的網(wǎng)頁主題信息抽取方法[J];計算機(jī)應(yīng)用研究;2009年12期

10 劉鵬博;車海燕;陳偉;;知識抽取技術(shù)綜述[J];計算機(jī)應(yīng)用研究;2010年09期

相關(guān)會議論文 前1條

1 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年

相關(guān)博士學(xué)位論文 前1條

1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年

2 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問題的研究與實現(xiàn)[D];河北科技大學(xué);2011年

3 李亞洲;文本分類語料庫自動構(gòu)建系統(tǒng)的研究與改進(jìn)[D];武漢理工大學(xué);2011年

4 侯明燕;基于網(wǎng)頁信息定位的數(shù)據(jù)抽取技術(shù)的研究[D];暨南大學(xué);2011年

5 郭力;Web正文信息抽取與面向?qū)哟谓Y(jié)構(gòu)的分類技術(shù)研究[D];華南理工大學(xué);2011年

6 秦樹偉;面向移動頁面自適應(yīng)平臺的Web結(jié)構(gòu)特征聚類算法[D];中國海洋大學(xué);2011年

7 呂婷婷;統(tǒng)計和規(guī)則相結(jié)合的新聞網(wǎng)頁分類系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2011年

8 王燕;網(wǎng)站敏感信息監(jiān)視系統(tǒng)設(shè)計與實現(xiàn)[D];解放軍信息工程大學(xué);2008年

9 衛(wèi)莉莉;面向領(lǐng)域的Web文本采集與分類[D];西安建筑科技大學(xué);2011年

10 盧振;面向教育新聞的主題爬蟲設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期

2 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期

3 梅雪;程學(xué)旗;郭巖;張剛;丁國棟;;一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J];中文信息學(xué)報;2008年01期

4 楊少華;林海略;韓燕波;;針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J];軟件學(xué)報;2008年02期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 查志琴;;基于行模式的網(wǎng)頁信息提取算法[J];常州工學(xué)院學(xué)報;2007年04期

2 孫桂煌;劉發(fā)升;;基于正文特征的網(wǎng)頁正文信息提取方法[J];現(xiàn)代計算機(jī)(專業(yè)版);2008年09期

3 許有田;趙景民;郭興旺;;西安市SPOT2.5m衛(wèi)星影像數(shù)據(jù)處理的實踐與探討[J];測繪科學(xué);2008年S1期

4 徐恩元;徐建華;;文獻(xiàn)老化理論研究[J];四川圖書館學(xué)報;2006年06期

5 朱岱力;羅永新;徐華;任成高;;以Pro/E特征為平臺的CAPP系統(tǒng)開發(fā)研究[J];現(xiàn)代制造工程;2009年06期

6 高月,梁本亮;淺談網(wǎng)絡(luò)信息挖掘[J];通信電源技術(shù);2004年01期

7 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術(shù);2008年12期

8 宮鵬;黎夏;徐冰;;高分辨率影像解譯理論與應(yīng)用方法中的一些研究問題[J];遙感學(xué)報;2006年01期

9 邱清盈;鄭國民;馮培恩;武建偉;;基于正則表達(dá)式的專利信息提取方法研究[J];中國機(jī)械工程;2007年19期

10 萬樂;左萬利;高金;;基于主題的網(wǎng)頁噪音去除機(jī)制[J];計算機(jī)工程與設(shè)計;2008年08期

相關(guān)會議論文 前10條

1 李帥;黃璽瑛;董家瑞;;一種基于神經(jīng)網(wǎng)絡(luò)的特定文本信息提取方法[A];第十屆中國科協(xié)年會論文集(一)[C];2008年

2 李偉蘭;龐小平;嚴(yán)易華;;城市影像地圖制圖綜合初探[A];中國測繪學(xué)會第九次全國會員代表大會暨學(xué)會成立50周年紀(jì)念大會論文集[C];2009年

3 袁克虹;陳自強(qiáng);劉維湘;賈少微;肖平;;計算機(jī)輔助腦部MRI影像診斷系統(tǒng)的研制[A];中國生物醫(yī)學(xué)工程進(jìn)展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集(上冊)[C];2007年

4 邢莉新;許惠平;;衛(wèi)星遙感數(shù)據(jù)信息提取新方法研究[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會文集[C];2000年

5 彭天強(qiáng);邵美珍;;基于神經(jīng)網(wǎng)絡(luò)的K-L變換方法研究[A];中國圖象圖形學(xué)會第十屆全國圖像圖形學(xué)術(shù)會議(CIG’2001)和第一屆全國虛擬現(xiàn)實技術(shù)研討會(CVR’2001)論文集[C];2001年

6 蔡建峰;;基于管理層次的信息供給策略[A];2002年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2002年

7 劉振民;李四海;韓震;;HY-1衛(wèi)星資料懸浮泥沙濃度信息提取應(yīng)用系統(tǒng)的研制[A];第十五屆全國遙感技術(shù)學(xué)術(shù)交流會論文摘要集[C];2005年

8 王小軍;李永森;;海南基礎(chǔ)地理信息數(shù)據(jù)集建設(shè)概要[A];全國測繪科技信息網(wǎng)中南分網(wǎng)第二十一次學(xué)術(shù)信息交流會論文集[C];2007年

9 陳永慧;李小娟;胡德勇;;京津冀都市圈城市擴(kuò)展遙感信息提取及動態(tài)變化分析[A];地理學(xué)與生態(tài)文明建設(shè)——中國地理學(xué)會2008年學(xué)術(shù)年會論文摘要集[C];2008年

10 楊俊;廖聞劍;彭艷兵;;一類沖突證據(jù)的融合方法[A];第十屆中國科協(xié)年會信息化與社會發(fā)展學(xué)術(shù)討論會分會場論文集[C];2008年

相關(guān)重要報紙文章 前10條

1 曠;《基于項目的軟件工程:面向?qū)ο笱芯糠椒ā穂N];中國圖書商報;2002年

2 山東大學(xué)管理學(xué)院 安玉紅邋溫德成;請來顧客談需求[N];中國質(zhì)量報;2007年

3 王黎芳;口述一部家庭史[N];中國婦女報;2001年

4 本報記者 馬文方;不拘一格降人才[N];中國計算機(jī)報;2001年

5 朱軍輝;關(guān)注戰(zhàn)術(shù)研究方法的創(chuàng)新[N];中國國防報;2009年

6 沈占鋒;遙感影像信息提取與分析[N];計算機(jī)世界;2006年

7 許道敏;警惕權(quán)力崇拜及其六種表現(xiàn)形式[N];檢察日報;2005年

8 王強(qiáng);也談“心”的概念及其研究方法[N];中國中醫(yī)藥報;2001年

9 李培林;村落進(jìn)入和研究方法[N];中國社會科學(xué)院院報;2004年

10 鞏鵬 王忠裕;科學(xué)的研究方法最重要[N];健康報;2003年

相關(guān)博士學(xué)位論文 前10條

1 武子玉;礦物近紅外光譜信息提取及應(yīng)用研究[D];吉林大學(xué);2005年

2 張旗;基于屬性的圖像分類研究[D];大連海事大學(xué);2005年

3 張立福;通用光譜模式分解算法及植被指數(shù)的建立[D];武漢大學(xué);2005年

4 蘇彩紅;墻地磚質(zhì)量自動檢測技術(shù)的研究[D];華南理工大學(xué);2004年

5 宋余慶;醫(yī)學(xué)圖像數(shù)據(jù)挖掘若干技術(shù)研究[D];東南大學(xué);2005年

6 宋晴;基于液滴分析技術(shù)和液滴指紋圖的液體識別方法的研究[D];天津大學(xué);2005年

7 吳婷;自發(fā)腦電腦機(jī)接口模式識別關(guān)鍵技術(shù)與實驗研究[D];上海交通大學(xué);2008年

8 孫真真;基于光學(xué)區(qū)雷達(dá)目標(biāo)二維像的目標(biāo)散射特征提取的理論及方法研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2001年

9 呂苗榮;信息提取與礦山信息系統(tǒng)的研究開發(fā)[D];中南大學(xué);2003年

10 王承;基于神經(jīng)網(wǎng)絡(luò)的模擬電路故障診斷方法研究[D];電子科技大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 茍全登;基于XML的半結(jié)構(gòu)化Web信息提取的研究[D];電子科技大學(xué);2006年

2 田紀(jì)亞;基于Matlab在指紋識別系統(tǒng)中的應(yīng)用研究[D];吉林大學(xué);2008年

3 田偉;側(cè)面人臉圖像識別系統(tǒng)的研究[D];哈爾濱工程大學(xué);2005年

4 謝鋒;基于小波包與數(shù)學(xué)形態(tài)學(xué)的道路信息提取研究[D];長沙理工大學(xué);2005年

5 萬金鵬;史華慈毛澤東研究評析[D];陜西師范大學(xué);2007年

6 呂鷺;中國英語與中式英語的研究內(nèi)容及方法對比研究[D];華中科技大學(xué);2007年

7 烏吉木;蒙古語青海和碩特土語的特殊詞語研究[D];內(nèi)蒙古師范大學(xué);2008年

8 曾紅梅;情緒圖片視覺誘發(fā)EEG特征提取與分析[D];天津大學(xué);2012年

9 許勇;基于百科詞典的知識獲取系統(tǒng)的研究與實現(xiàn)[D];北京工業(yè)大學(xué);2001年

10 張磊;基于Internet的智能信息挖掘系統(tǒng)建模及關(guān)鍵技術(shù)研究[D];西北工業(yè)大學(xué);2003年



本文編號:2728968

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2728968.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8f946***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com