天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

專家主頁信息抽取系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2021-09-06 08:01
  政產(chǎn)學研合作,作為當下提升我國中小型企業(yè)高新技術創(chuàng)新能力的重要內(nèi)容,在推進過程中卻面臨人才引進的困難。其中,政府單位與學術圈的脫節(jié)、科研機構與企業(yè)的信息不對稱是造成這一問題的主要原因;ヂ(lián)網(wǎng)中的專家主頁信息,可以幫助用戶了解專家,為引進工作提供支持。但專家主頁也存在著站點分布分散、文本表述不清晰等問題,需要整合相關主頁資源并從中抽取有效信息,為用戶提供統(tǒng)一、便捷、準確的專家信息查閱方案。為實現(xiàn)上述目標,本文設計并實現(xiàn)了基于Web信息抽取技術的專家主頁信息抽取系統(tǒng)。系統(tǒng)實質為專家信息平臺的子模塊,完成平臺中專家畫像的構建。其中,專家畫像定義為包含專家總體概況、研究方向等信息的可視化頁面,由本文抽取的文本組合而成。本論文的主要工作內(nèi)容如下:(1)系統(tǒng)以整個平臺給出的專家名單為目標,從網(wǎng)絡查詢結果中自動化識別出主頁站點,并結合HTML結構、中英文語法完成網(wǎng)頁正文定位、篩選、規(guī)范化處理,實現(xiàn)數(shù)據(jù)采集工作。(2)數(shù)據(jù)的預處理包括構建語料庫、標注數(shù)據(jù)集、選擇特征向量等步驟。系統(tǒng)以文本解析、規(guī)則匹配給出的結果,實現(xiàn)自動化標注方案。考慮字段的文本語義以及所在語境結構,引入Word2Vec、TF-IDF... 

【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

專家主頁信息抽取系統(tǒng)的設計與實現(xiàn)


DOM樹結構圖

工程結構,向量


第二章相關理論與技術9Word2Vec模型是一個三層的神經(jīng)網(wǎng)絡,包括接受初始向量的輸入層,進行向量相加的投影層,以及學習損失函數(shù)的Softmax層。Word2Vec屬于語言模型的范疇,詞向量計算只是模型的副產(chǎn)物,而詞向量的意義在于機器對于詞的語義的學習,往往可以作為其他訓練模型的語義特征。從上下文預測中心詞以及中心詞發(fā)散上下文兩個角度,Word2Vec分別有CBOW[29](ContinueBag-of-WordModel)和Skip-Gram[30]模型,架構如圖2-2所示。理論上的模型的輸入是每個單詞的One-hot向量,訓練完成后每個單詞的向量被保存在了投影層的矩陣中。但在實際的工程化中,提出了分層Softmax以及負采樣兩種加速方案。以分層Softmax方案對應的CBOW訓練模型為例,輸入為中心詞對應上下文中的所有詞向量,其維度大小與最終的詞向量一致并隨機初始化。在投影層中,將上下文所有的詞向量相加后平均。輸出層區(qū)別于傳統(tǒng)的線型結構,引入樹形結構,將全詞典的分類損失轉變?yōu)槎鄬佣诌x擇的最小化損失。具體的結構如下圖2-3所示。圖2-3分層Softmax工程結構以輸出層的霍夫曼樹為例,借助分層Softmax的思想,對于每一個非葉子結點只有正負這兩種分類選擇,其概率以及單個節(jié)點的交叉熵可以分別表示為:TVKXY2[=""\0]^_`ab(2-5)T"KXY2[=0]^_`ab"\0]^_`ab(2-6) TKXY2[=TVKXY2["cd[1TVKXY2[]d(2-7)上述公式中2為非葉子節(jié)點對應的向量。對于詞典中的任意詞,都有從根節(jié)點到該詞對應的葉子節(jié)點的路徑。因此對于葉子節(jié)點對應詞的概率就為從根節(jié)點開始到葉子結

模型圖,模型,超平面,向量


東南大學碩士學位論文10點結束,中間每一次分類都會產(chǎn)生一個概率,將產(chǎn)生的概率相乘就得到結果,如下公式所示:T1K(1)[=∏TKXY2[32jk(2-8)由此式的對數(shù)似然函數(shù),最大化交叉熵,采用隨機梯度上升的方法求出2為:2=2+[1TVKXY2[]X(2-9)節(jié)點的輔助向量更新不是最終目標,詞典中詞所對應的詞向量也會隨著損失函數(shù)的約束同步更新。同時,中心詞的更新分量會平均到上下文的詞向量更新,一次訓練可以同時對多個向量進行更新。考慮到公式中的X和2是對稱的,則對于詞典中每個詞的詞向量1為:1=1+[1TVKXY2[]2(2-10)2.3算法模型及相關技術2.3.1SVM分類器模型支持向量機[31](SVM,SupportVectorMachine),依據(jù)訓練樣本的分布情況,可以分為線性與非線性兩大類。該模型的目標是要找到一個合理的分割超平面B,使得樣本盡可能的分離開來。定義平行于超平面、分布在其兩側的平面為劃分平面,當這兩個平面間的距離達到最大時,得到最佳訓練效果。給定線性二分類問題,SVM中不同的超平面產(chǎn)生了多組間隔距離,如圖2-4所示。圖2-4SVM二分類模型

【參考文獻】:
期刊論文
[1]基于DOM樹的可適應性Web信息抽取[J]. 李朝,彭宏,葉蘇南,張歡,楊親遙.  計算機科學. 2009(07)
[2]HTML文件的文本信息預處理技術[J]. 王志琪,王永成.  計算機工程. 2006(05)
[3]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪.  光通信研究. 2005(03)
[4]基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J]. 孫承杰,關毅.  中文信息學報. 2004(05)
[5]基于Ontology的信息抽取[J]. 廖樂健,曹元大,李新穎.  計算機工程與應用. 2002(23)



本文編號:3387083

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3387083.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶744f0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com