天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

專家主頁信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-09-06 08:01
  政產(chǎn)學(xué)研合作,作為當(dāng)下提升我國中小型企業(yè)高新技術(shù)創(chuàng)新能力的重要內(nèi)容,在推進(jìn)過程中卻面臨人才引進(jìn)的困難。其中,政府單位與學(xué)術(shù)圈的脫節(jié)、科研機(jī)構(gòu)與企業(yè)的信息不對稱是造成這一問題的主要原因;ヂ(lián)網(wǎng)中的專家主頁信息,可以幫助用戶了解專家,為引進(jìn)工作提供支持。但專家主頁也存在著站點(diǎn)分布分散、文本表述不清晰等問題,需要整合相關(guān)主頁資源并從中抽取有效信息,為用戶提供統(tǒng)一、便捷、準(zhǔn)確的專家信息查閱方案。為實(shí)現(xiàn)上述目標(biāo),本文設(shè)計(jì)并實(shí)現(xiàn)了基于Web信息抽取技術(shù)的專家主頁信息抽取系統(tǒng)。系統(tǒng)實(shí)質(zhì)為專家信息平臺的子模塊,完成平臺中專家畫像的構(gòu)建。其中,專家畫像定義為包含專家總體概況、研究方向等信息的可視化頁面,由本文抽取的文本組合而成。本論文的主要工作內(nèi)容如下:(1)系統(tǒng)以整個(gè)平臺給出的專家名單為目標(biāo),從網(wǎng)絡(luò)查詢結(jié)果中自動(dòng)化識別出主頁站點(diǎn),并結(jié)合HTML結(jié)構(gòu)、中英文語法完成網(wǎng)頁正文定位、篩選、規(guī)范化處理,實(shí)現(xiàn)數(shù)據(jù)采集工作。(2)數(shù)據(jù)的預(yù)處理包括構(gòu)建語料庫、標(biāo)注數(shù)據(jù)集、選擇特征向量等步驟。系統(tǒng)以文本解析、規(guī)則匹配給出的結(jié)果,實(shí)現(xiàn)自動(dòng)化標(biāo)注方案?紤]字段的文本語義以及所在語境結(jié)構(gòu),引入Word2Vec、TF-IDF... 

【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學(xué)位級別】:碩士

【部分圖文】:

專家主頁信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


DOM樹結(jié)構(gòu)圖

工程結(jié)構(gòu),向量


第二章相關(guān)理論與技術(shù)9Word2Vec模型是一個(gè)三層的神經(jīng)網(wǎng)絡(luò),包括接受初始向量的輸入層,進(jìn)行向量相加的投影層,以及學(xué)習(xí)損失函數(shù)的Softmax層。Word2Vec屬于語言模型的范疇,詞向量計(jì)算只是模型的副產(chǎn)物,而詞向量的意義在于機(jī)器對于詞的語義的學(xué)習(xí),往往可以作為其他訓(xùn)練模型的語義特征。從上下文預(yù)測中心詞以及中心詞發(fā)散上下文兩個(gè)角度,Word2Vec分別有CBOW[29](ContinueBag-of-WordModel)和Skip-Gram[30]模型,架構(gòu)如圖2-2所示。理論上的模型的輸入是每個(gè)單詞的One-hot向量,訓(xùn)練完成后每個(gè)單詞的向量被保存在了投影層的矩陣中。但在實(shí)際的工程化中,提出了分層Softmax以及負(fù)采樣兩種加速方案。以分層Softmax方案對應(yīng)的CBOW訓(xùn)練模型為例,輸入為中心詞對應(yīng)上下文中的所有詞向量,其維度大小與最終的詞向量一致并隨機(jī)初始化。在投影層中,將上下文所有的詞向量相加后平均。輸出層區(qū)別于傳統(tǒng)的線型結(jié)構(gòu),引入樹形結(jié)構(gòu),將全詞典的分類損失轉(zhuǎn)變?yōu)槎鄬佣诌x擇的最小化損失。具體的結(jié)構(gòu)如下圖2-3所示。圖2-3分層Softmax工程結(jié)構(gòu)以輸出層的霍夫曼樹為例,借助分層Softmax的思想,對于每一個(gè)非葉子結(jié)點(diǎn)只有正負(fù)這兩種分類選擇,其概率以及單個(gè)節(jié)點(diǎn)的交叉熵可以分別表示為:TVKXY2[=""\0]^_`ab(2-5)T"KXY2[=0]^_`ab"\0]^_`ab(2-6) TKXY2[=TVKXY2["cd[1TVKXY2[]d(2-7)上述公式中2為非葉子節(jié)點(diǎn)對應(yīng)的向量。對于詞典中的任意詞,都有從根節(jié)點(diǎn)到該詞對應(yīng)的葉子節(jié)點(diǎn)的路徑。因此對于葉子節(jié)點(diǎn)對應(yīng)詞的概率就為從根節(jié)點(diǎn)開始到葉子結(jié)

模型圖,模型,超平面,向量


東南大學(xué)碩士學(xué)位論文10點(diǎn)結(jié)束,中間每一次分類都會產(chǎn)生一個(gè)概率,將產(chǎn)生的概率相乘就得到結(jié)果,如下公式所示:T1K(1)[=∏TKXY2[32jk(2-8)由此式的對數(shù)似然函數(shù),最大化交叉熵,采用隨機(jī)梯度上升的方法求出2為:2=2+[1TVKXY2[]X(2-9)節(jié)點(diǎn)的輔助向量更新不是最終目標(biāo),詞典中詞所對應(yīng)的詞向量也會隨著損失函數(shù)的約束同步更新。同時(shí),中心詞的更新分量會平均到上下文的詞向量更新,一次訓(xùn)練可以同時(shí)對多個(gè)向量進(jìn)行更新?紤]到公式中的X和2是對稱的,則對于詞典中每個(gè)詞的詞向量1為:1=1+[1TVKXY2[]2(2-10)2.3算法模型及相關(guān)技術(shù)2.3.1SVM分類器模型支持向量機(jī)[31](SVM,SupportVectorMachine),依據(jù)訓(xùn)練樣本的分布情況,可以分為線性與非線性兩大類。該模型的目標(biāo)是要找到一個(gè)合理的分割超平面B,使得樣本盡可能的分離開來。定義平行于超平面、分布在其兩側(cè)的平面為劃分平面,當(dāng)這兩個(gè)平面間的距離達(dá)到最大時(shí),得到最佳訓(xùn)練效果。給定線性二分類問題,SVM中不同的超平面產(chǎn)生了多組間隔距離,如圖2-4所示。圖2-4SVM二分類模型

【參考文獻(xiàn)】:
期刊論文
[1]基于DOM樹的可適應(yīng)性Web信息抽取[J]. 李朝,彭宏,葉蘇南,張歡,楊親遙.  計(jì)算機(jī)科學(xué). 2009(07)
[2]HTML文件的文本信息預(yù)處理技術(shù)[J]. 王志琪,王永成.  計(jì)算機(jī)工程. 2006(05)
[3]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪.  光通信研究. 2005(03)
[4]基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J]. 孫承杰,關(guān)毅.  中文信息學(xué)報(bào). 2004(05)
[5]基于Ontology的信息抽取[J]. 廖樂健,曹元大,李新穎.  計(jì)算機(jī)工程與應(yīng)用. 2002(23)



本文編號:3387083

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3387083.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶744f0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com