阿里達摩院獲SemEval最佳論文 讓AI更懂人類語言
7月19日消息,全球規(guī)模最大的語義測評競賽SemEval-2022近日宣布,將今年唯一的“最佳系統(tǒng)論文獎”頒發(fā)給阿里達摩院等機構的研究人員。他們?yōu)橹杏⑽脑趦鹊?1種語言設計出一套融入知識的命名實體識別(NER)系統(tǒng),能夠精準識別出人名、地名、機構、作品等關鍵性的實體信息,有力提升了AI理解人類語言的能力。
SemEval(Semantic Evaluation語義評測)是自然語言處理領域的權威國際競賽,已有超過20年歷史,由國際計算機語言學學會(ACL)的詞匯和語義小組主辦,旨在讓AI去分析、理解人類語言中蘊含的意義。
SemEval的最佳論文獎共有兩個:最佳任務論文獎(Best Task Paper Award)和最佳系統(tǒng)論文獎(Best System Paper Award)。通俗理解,一個是提問題,另一個是解決問題。阿里達摩院與上??萍即髮W、浙江大學、新加坡科技設計大學的聯(lián)合研究團隊摘得了今年的最佳系統(tǒng)論文獎,這篇從221篇候選論文中脫穎而出的文章名為《DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition》。
SemEval-2022最佳系統(tǒng)論文
獲獎團隊參加了SemEval-2022的12項任務之一:多語言復雜命名實時識別(Multilingual Complex Named Entity Recognition)。命名實體識別(NER)是自然語言處理領域的基礎性工作,是指識別文本中具有特定意義的實體詞(Entity),主要包括人名、地名、機構名、專有名詞等。
任務要求研究人員設計一套系統(tǒng),能夠識別中文、英語在內的11種語言中的實體,包括在多語言夾雜、有“?!薄⒂锌s寫、有俗語的句式中,做到精準識別。比如例句:“2016年,她客串出演了HBO電視劇權力的游戲”,AI需要識別理解出“HBO”這個縮略的機構名,還有“權力的游戲”這個作品名。
達摩院系統(tǒng)獲得總分第一
論文提出了一套全新的融入知識的多語言命名實體識別系統(tǒng),在比賽任務的13個子項中獲得10個第一,總分排名第一,較大幅度提升了業(yè)界水平。
一般來說,由于詞語具有多義性,只有結合上下文語境,我們才能準確理解詞語,AI也是如此。新系統(tǒng)的強大之處在于,即便缺乏上下文語境,也能讓AI理解復雜的實體詞。研究人員介紹,該系統(tǒng)額外引入外部知識,構建了一個多語言通用知識庫,通過交互型的檢索來擴充文本的上下文信息,從而消除歧義;再加上多階段的微調,可以實現(xiàn)精準識別實體信息。
達摩院系統(tǒng)原理示意
據(jù)介紹,這項獲獎研究成果在翻譯、搜索、人機對話等領域有著廣泛的應用前景。目前,達摩院的機器翻譯系統(tǒng)能提供214種語言的互譯服務,每天為國內200萬中小商家翻譯上億文字,助力國貨走向全世界。國際權威研究機構Gartner最新報告《云AI開發(fā)者服務關鍵能力報告》指出,阿里語言AI已排名全球第二,創(chuàng)中國企業(yè)歷史最佳成績。