阿里達摩院獲SemEval最佳論文讓AI更懂人類語言

作者：小編更新時間：2022-07-20 點擊數(shù)：

7月19日消息，全球規(guī)模最大的語義測評競賽SemEval-2022近日宣布，將今年唯一的“最佳系統(tǒng)論文獎”頒發(fā)給阿里達摩院等機構(gòu)的研究人員。他們?yōu)橹杏⑽脑趦?nèi)的11種語言設計出一套融入知識的命名實體識別（NER）系統(tǒng)，能夠精準識別出人名、地名、機構(gòu)、作品等關(guān)鍵性的實體信息，有力提升了AI理解人類語言的能力。

SemEval（Semantic Evaluation語義評測）是自然語言處理領(lǐng)域的權(quán)威國際競賽，已有超過20年歷史，由國際計算機語言學學會（ACL）的詞匯和語義小組主辦，旨在讓AI去分析、理解人類語言中蘊含的意義。

SemEval的最佳論文獎共有兩個：最佳任務論文獎（Best Task Paper Award）和最佳系統(tǒng)論文獎（Best System Paper Award）。通俗理解，一個是提問題，另一個是解決問題。阿里達摩院與上?？萍即髮W、浙江大學、新加坡科技設計大學的聯(lián)合研究團隊摘得了今年的最佳系統(tǒng)論文獎，這篇從221篇候選論文中脫穎而出的文章名為《DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition》。

阿里達摩院獲SemEval最佳論文讓AI更懂人類語言(圖1)

SemEval-2022最佳系統(tǒng)論文

獲獎團隊參加了SemEval-2022的12項任務之一：多語言復雜命名實時識別（Multilingual Complex Named Entity Recognition）。命名實體識別（NER）是自然語言處理領(lǐng)域的基礎性工作，是指識別文本中具有特定意義的實體詞（Entity），主要包括人名、地名、機構(gòu)名、專有名詞等。

任務要求研究人員設計一套系統(tǒng)，能夠識別中文、英語在內(nèi)的11種語言中的實體，包括在多語言夾雜、有“?！?、有縮寫、有俗語的句式中，做到精準識別。比如例句：“2016年，她客串出演了HBO電視劇權(quán)力的游戲”，AI需要識別理解出“HBO”這個縮略的機構(gòu)名，還有“權(quán)力的游戲”這個作品名。

阿里達摩院獲SemEval最佳論文讓AI更懂人類語言(圖2)

達摩院系統(tǒng)獲得總分第一

論文提出了一套全新的融入知識的多語言命名實體識別系統(tǒng)，在比賽任務的13個子項中獲得10個第一，總分排名第一，較大幅度提升了業(yè)界水平。

一般來說，由于詞語具有多義性，只有結(jié)合上下文語境，我們才能準確理解詞語，AI也是如此。新系統(tǒng)的強大之處在于，即便缺乏上下文語境，也能讓AI理解復雜的實體詞。研究人員介紹，該系統(tǒng)額外引入外部知識，構(gòu)建了一個多語言通用知識庫，通過交互型的檢索來擴充文本的上下文信息，從而消除歧義；再加上多階段的微調(diào)，可以實現(xiàn)精準識別實體信息。

阿里達摩院獲SemEval最佳論文讓AI更懂人類語言(圖3)

達摩院系統(tǒng)原理示意

據(jù)介紹，這項獲獎研究成果在翻譯、搜索、人機對話等領(lǐng)域有著廣泛的應用前景。目前，達摩院的機器翻譯系統(tǒng)能提供214種語言的互譯服務，每天為國內(nèi)200萬中小商家翻譯上億文字，助力國貨走向全世界。國際權(quán)威研究機構(gòu)Gartner最新報告《云AI開發(fā)者服務關(guān)鍵能力報告》指出，阿里語言AI已排名全球第二，創(chuàng)中國企業(yè)歷史最佳成績。

加入收藏

上一篇：加強智能家居網(wǎng)絡設置的三種方法

下一篇：如何利用智能建筑技術(shù)實現(xiàn)節(jié)能減排？

返回列表