清華、劍橋、UIC聯(lián)合推出首個(gè)中文事實(shí)核查數(shù)據(jù)集:基于證據(jù)、涵蓋醫(yī)療社會(huì)等多個(gè)領(lǐng)域
- 論文地址:https://arxiv.org/pdf/2206.11863.pdf
- 數(shù)據(jù)集CHEF Dataset鏈接:https://github.com/THU-BPM/CHEF
1. 介紹
我們先來(lái)看看任務(wù)的定義,舉一個(gè)相對(duì)比較簡(jiǎn)單的例子:
比如上海封控期間,某自媒體就聲稱(chēng)“李立群偷下樓買(mǎi)肉被抓”。單憑這個(gè)聲明(Claim)本身,我們其實(shí)沒(méi)法判斷他有沒(méi)有偷偷下樓買(mǎi)肉然后被抓。為了驗(yàn)證這個(gè)聲明的真實(shí)性,最直觀的思路就是要尋找證據(jù)(Evidence),證據(jù)就是你能夠搜集得到的,同時(shí)能夠幫助我們驗(yàn)證一個(gè)聲明真實(shí)性的信息。比如下圖,本人直接下場(chǎng)手撕就可以作為證據(jù)了。
上面舉的這個(gè)聲明是比較簡(jiǎn)單的,只需要簡(jiǎn)單的證據(jù),也不需要基于證據(jù)進(jìn)行推理。下面我們來(lái)看一個(gè)相對(duì)復(fù)雜一點(diǎn)的例子。比如有聲明:2019 年,共有 12.08 萬(wàn)人參加成都中考,但是招生計(jì)劃只有 4.3 萬(wàn)。要驗(yàn)證這個(gè)聲明相對(duì)就困難一些了,假如我們找到報(bào)告 2019 年成都中考的相關(guān)文檔:
......今年共有 12.08 萬(wàn)人參加中考,這個(gè)是成都全市, 包括了 20 個(gè)區(qū),高新區(qū)和天府新區(qū)的總參考人數(shù)。月前,教育局公布了 2019 年的普高招生計(jì)劃。招生計(jì)劃數(shù)進(jìn)一步增加,上普高的機(jī)會(huì)更大了。......
2019 年,中心城區(qū)(13 個(gè)區(qū))招生計(jì)劃為 43015 人。
這個(gè)文檔中包含了非常多和聲明相關(guān)的信息,但是直接相關(guān)的,能夠幫助我們驗(yàn)證聲明的,就是上述的第二段話(huà)的后半部分,還有隔了很多段話(huà)之后的第一句話(huà)。根據(jù)這幾個(gè)證據(jù),我們可以知道成都全市 20 個(gè)區(qū)的確有 12.08 萬(wàn)人參加中考,而中心城區(qū)(只包含了 13 個(gè)區(qū))的招生計(jì)劃確實(shí)也是只有 4.3 萬(wàn)。雖然數(shù)字都對(duì),但是這里偷換了概念,在討論參加中考人數(shù)時(shí)使用了 20 個(gè)區(qū)的人數(shù),而在討論招生計(jì)劃時(shí)卻將 20 個(gè)區(qū)的范圍縮小成為 13 個(gè)區(qū),從而誤導(dǎo)讀者。驗(yàn)證這種聲明很多時(shí)候我們需要從一個(gè)或者多個(gè)文檔當(dāng)中抽取直接相關(guān)的證據(jù),同時(shí)基于抽取的證據(jù)進(jìn)行推理。為了促進(jìn)中文的事實(shí)核查機(jī)器學(xué)習(xí)系統(tǒng),于是我們提出了這樣一個(gè)基于證據(jù)的中文數(shù)據(jù)集。
2. 相關(guān)工作
根據(jù)事實(shí)核查的綜述[1],目前事實(shí)核查的數(shù)據(jù)集大致可以分為兩類(lèi):人工的(Artificial)和天然的 (Natural)。
人工的(Artificial):就是請(qǐng)標(biāo)注者按照維基百科上的句子進(jìn)行改寫(xiě)作為聲明,文檔里面相關(guān)的段落可以作為證據(jù)驗(yàn)證這個(gè)聲明。如果是同義轉(zhuǎn)換,那么這個(gè)聲明就是被證據(jù)所支持(Supported),如果替換了句子里面的實(shí)體,或者加了否定等一系列修改,那么這個(gè)聲明就是被證據(jù)所反對(duì)(Refuted)。
這種標(biāo)注范式最開(kāi)始就是 FEVER[2],后面很多有名的數(shù)據(jù)集比如:TabFact[3]也是沿用了這種范式。這類(lèi)型的人工數(shù)據(jù)集的好處就是可以規(guī)?;?,請(qǐng)標(biāo)注者標(biāo)注上 10 萬(wàn)的聲明,非常適宜訓(xùn)練神經(jīng)網(wǎng)絡(luò)。另一方面,相關(guān)的證據(jù)也容易獲得。缺點(diǎn)就是,這些聲明并不是日常生活中我們會(huì)遇到的,廣大人民群眾喜聞樂(lè)見(jiàn)的聲明,比如你不會(huì)基于李立群的維基百科改寫(xiě)出 “他偷偷下樓買(mǎi)肉被抓” 的聲明。另一方面,這類(lèi)型的數(shù)據(jù)集假設(shè)維基百科包含了驗(yàn)證聲明所有的知識(shí),這是一個(gè)比較強(qiáng)的假設(shè)。在現(xiàn)實(shí)場(chǎng)景里面往往不滿(mǎn)足這個(gè)假設(shè)。最簡(jiǎn)單的一個(gè)問(wèn)題就是維基百科會(huì)存在時(shí)間上的滯后性。
天然的 (Natural):就是從事實(shí)核查的平臺(tái)上面直接爬取下來(lái)的聲明,外國(guó)比較有名的機(jī)構(gòu)就是 PolitiFact,經(jīng)常核查特朗普講的話(huà)。這類(lèi)型的數(shù)據(jù)集的好處就是,他是廣大群眾日常會(huì)碰到的,想要知道真相的聲明。也是人類(lèi)事實(shí)核查者需要去進(jìn)行甄別的聲明。
假如我們最終是要構(gòu)建一個(gè)能夠一定程度上替代人類(lèi)核查者的系統(tǒng),這個(gè)系統(tǒng)的輸入就需要是這類(lèi)型的聲明。這類(lèi)數(shù)據(jù)集的缺點(diǎn)也很明顯,就是人類(lèi)核查過(guò)的聲明數(shù)量是非常有限的。如表格所示,大部分的數(shù)據(jù)集其實(shí)都要比人工構(gòu)造的小一個(gè)數(shù)量級(jí)。
另一方面就是,尋找證據(jù)是一個(gè)非常困難的問(wèn)題?,F(xiàn)有的數(shù)據(jù)集一般就是直接使用事實(shí)核查的文章 [4] 作為證據(jù),要么就是用聲明輸入給谷歌搜索進(jìn)行查詢(xún)[5][6],然后用返回的搜索摘要(如紅框所示)作為證據(jù)。
這些尋找證據(jù)的方法有兩個(gè)問(wèn)題:
- 使用事實(shí)核查文章本身作為證據(jù):在真實(shí)場(chǎng)景里面,這種做法是不切合實(shí)際的,假如我們要上線(xiàn)一個(gè)事實(shí)核查系統(tǒng),系統(tǒng)需要去核查新的聲明的時(shí)候,往往還沒(méi)有事實(shí)核查的文章出現(xiàn)。這樣系統(tǒng)就沒(méi)法學(xué)會(huì)如何搜集證據(jù)了。
- 使用谷歌摘要作為證據(jù):這種做法克服了上述的問(wèn)題,更加貼近真實(shí)場(chǎng)景,事實(shí)核查者往往需要依賴(lài)搜索引擎尋找相關(guān)的信息。但是這種方法也有弊端,就是信息量嚴(yán)重不足,如上圖所示,谷歌的基于規(guī)則的摘要基本沒(méi)法提供充分的信息,來(lái)幫助我們判斷聲明的真實(shí)性。
針對(duì)以上提到的問(wèn)題,我們構(gòu)建了 CHEF,CHEF 有以下幾個(gè)特點(diǎn):
- 使用真實(shí)世界的聲明,同時(shí)是中文的,填補(bǔ)了中文事實(shí)核查數(shù)據(jù)集的空白。
- 使用搜索引擎返回的文檔作為原始證據(jù),更加貼近真實(shí)場(chǎng)景。
- 使用人類(lèi)標(biāo)注返回文檔的相關(guān)句子作為細(xì)粒度的證據(jù),可以用于訓(xùn)練核查系統(tǒng)學(xué)會(huì)如何搜集證據(jù)。
3. 數(shù)據(jù)集構(gòu)建
數(shù)據(jù)集的構(gòu)建包含 4 個(gè)部分:數(shù)據(jù)收集,聲明標(biāo)注,證據(jù)檢索和數(shù)據(jù)驗(yàn)證。
3.1 數(shù)據(jù)收集
原始聲明主要從四個(gè)中文的事實(shí)核查網(wǎng)站上面爬?。ǜ鶕?jù)杜克新聞平臺(tái) ),其中簡(jiǎn)體中文有兩個(gè):中國(guó)辟謠中心和騰訊較真。繁體中文是來(lái)自于臺(tái)灣的兩個(gè)平臺(tái):MyGoPen 和臺(tái)灣事實(shí)核查中心。由于從事實(shí)核查網(wǎng)站中爬取的聲明絕大部分(90%+)都是不實(shí)的,其實(shí)很直觀,大部分流行的謠言 / 聲明都是不實(shí)的,才會(huì)被核查平臺(tái)辟謠 / 驗(yàn)證。參考前人的方法(PublicHealth[7]),我們爬取中國(guó)新聞網(wǎng)的標(biāo)題作為真實(shí)的聲明,構(gòu)造一個(gè)標(biāo)簽相對(duì)平衡的數(shù)據(jù)集。
3.2 聲明標(biāo)注
和國(guó)外相對(duì)成熟的事實(shí)核查機(jī)構(gòu)相比,中國(guó)的核查平臺(tái)發(fā)布的文章相對(duì)沒(méi)有那么規(guī)范。比如 PolitiFact 會(huì)明確告訴你聲明是什么,核查摘要是什么,證據(jù)和推理細(xì)節(jié)是什么(如上圖所示)。但中文的文章一般不會(huì)明確指出,所以我們請(qǐng)標(biāo)注者閱讀文章之后抽取出文章驗(yàn)證的聲明。同時(shí)也對(duì)聲明進(jìn)行清洗,降低其含有的偏差(bias)。
之前有工作表明[8],事實(shí)核查數(shù)據(jù)集里面的聲明含有比較強(qiáng)的 bias(比如不實(shí)的聲明一般帶有否定詞),BERT 等 PLM 可以通過(guò)直接捕捉這些 bias,不需要證據(jù)就可以驗(yàn)證聲明。清洗的方法包括將反問(wèn)句改為陳述句,去掉一些可能帶有 bias 的詞語(yǔ),比如:重磅,震驚等等。抽取出聲明之后,我們還要求標(biāo)注根據(jù)事實(shí)核查的文章給聲明打標(biāo)簽。我們采取和 FEVER 等一系列工作類(lèi)似的分類(lèi),使用 Supported,Refuted 和 Not enough information(NEI)的三分類(lèi)。其中 Refuted 是最多的,NEI 的數(shù)量是最少的。
3.3 證據(jù)檢索
我們使用聲明作為查詢(xún)語(yǔ)句去查詢(xún)谷歌搜索,然后過(guò)濾掉部分文檔,一部分是聲明發(fā)表時(shí)間之后的文檔,另一部分是來(lái)自于不實(shí)消息傳播平臺(tái)的文檔,最后保留 Top 5 的文檔。然后要求標(biāo)注者針對(duì)每個(gè)聲明,選擇最多 5 個(gè)句子作為證據(jù)。
數(shù)據(jù)集中的聲明和證據(jù)的統(tǒng)計(jì)數(shù)據(jù)如下所示:每個(gè)聲明返回文檔的平均長(zhǎng)度為 3691 個(gè)詞,其中標(biāo)注者抽取出最后細(xì)粒度證據(jù)的句子包含 126 個(gè)詞,假如使用谷歌基于規(guī)則的摘要?jiǎng)t平均包含 68 個(gè)詞。簡(jiǎn)單地從數(shù)字上面進(jìn)行比較,使用返回的文檔和標(biāo)注的句子,要比直接使用摘要提供了更多的上下文信息。
3.4 數(shù)據(jù)驗(yàn)證
為了保證標(biāo)注一致性,我們添加了一輪數(shù)據(jù)驗(yàn)證,隨機(jī)抽取了 3% 已標(biāo)注的聲明,一共 310 個(gè)分給 5 個(gè)標(biāo)注者進(jìn)行標(biāo)簽再標(biāo)注。Fleiss K score 達(dá)到了 0.74,比 FEVER 的 0.68 和 Snopes[5]的 0.70 略高一些,說(shuō)明了數(shù)據(jù)標(biāo)注的質(zhì)量不遜色于前人構(gòu)建的數(shù)據(jù)集。CHEF 中聲明主要分為 5 個(gè)主題:社會(huì),公衛(wèi),政治,科學(xué)和文化。和歐美的事實(shí)核查平臺(tái)關(guān)注在政治領(lǐng)域不同,中文平臺(tái)更加關(guān)注公共衛(wèi)生議題,比如:新冠病毒,養(yǎng)生,醫(yī)療等。另一個(gè)主要議題是社會(huì),比如:詐騙,升學(xué),社會(huì)事件等。
驗(yàn)證聲明主要有四方面的挑戰(zhàn):
- 證據(jù)搜集:將近 70% 的聲明都要求搜尋到相關(guān)的證據(jù)才能驗(yàn)證。
- 專(zhuān)家咨詢(xún):將近 40% 的聲明需要通過(guò)咨詢(xún)專(zhuān)家才能得到相關(guān)的信息。
- 數(shù)值推理:18% 的聲明驗(yàn)證需要進(jìn)行數(shù)值上的推理才能得出結(jié)論。
- 多模態(tài):約 8% 的聲明需要圖片,視頻等非文本的證據(jù)。
4. 基線(xiàn)系統(tǒng)
和之前經(jīng)典的事實(shí)核查數(shù)據(jù)集(比如 FEVER)類(lèi)似,機(jī)器學(xué)習(xí)系統(tǒng)需要先在給定的文檔里面選擇相關(guān)的句子作為證據(jù)(證據(jù)檢索),然后再根據(jù)證據(jù)對(duì)聲明進(jìn)行驗(yàn)證(聲明驗(yàn)證)。
本文根據(jù)千人的工作,提出了兩大類(lèi)的基線(xiàn)系統(tǒng):流水線(xiàn)(pipeline)和聯(lián)合(joint) 系統(tǒng)。流水線(xiàn)(pipeline):即證據(jù)檢索和聲明驗(yàn)證是兩個(gè)分開(kāi)的模塊,先使用證據(jù)檢索器抽取出證據(jù),再聯(lián)合聲明一起交給聲明驗(yàn)證模塊進(jìn)行分類(lèi)。
- 證據(jù)檢索部分:我們使用了 4 種不同的抽取器從返回的文檔當(dāng)中抽取句子作為細(xì)粒度的證據(jù)。第一種就是基于字符特征匹配:TF-IDF;第二種是基于語(yǔ)義特征匹配:我們使用中文 BERT,然后計(jì)算余弦相似度。第三種是混合特征:采取上述兩種特征,然后在用 rankSVM 排序。最后一種基線(xiàn)系統(tǒng)就是經(jīng)典的谷歌返回的摘要。
- 聲明驗(yàn)證部分:我們使用 3 種不同的模型。第一種就是基于中文 BERT,將聲明和上面得到的證據(jù)拼接起來(lái)丟給 BERT 進(jìn)行三分類(lèi)。第二種是基于注意力的模型,基于聲明賦予證據(jù)不同的權(quán)重之后進(jìn)行分類(lèi)。第三種是基于圖的模型:我們使用了 FEVER 上面的 SOTA 圖模型 KGAT[9],可以更好地在綜合不同的證據(jù)進(jìn)行推理。
聯(lián)合(joint):證據(jù)檢索和聲明驗(yàn)證模塊聯(lián)合進(jìn)行優(yōu)化。使用了三種不同的模型,第一種是 FEVER 上面 SOTA 的聯(lián)合模型[10],使用了多任務(wù)學(xué)習(xí)的框架,同時(shí)學(xué)習(xí)給證據(jù)和聲明打標(biāo)簽。第二種是把證據(jù)抽取作為隱變量進(jìn)行處理[11],給返回的文檔的每個(gè)句子打 0 或者 1 的標(biāo)簽,打了 1 標(biāo)簽的句子將會(huì)留下作為證據(jù)和聲明一起進(jìn)行分類(lèi),使用 REINFORCE 進(jìn)行訓(xùn)練。第三種方法和第二種類(lèi)似,只不過(guò)使用 HardKuma 和重參數(shù)的方法進(jìn)行聯(lián)合訓(xùn)練[12],而不是使用策略梯度。
5. 實(shí)驗(yàn)結(jié)果
5.1 主要結(jié)果
實(shí)驗(yàn)主要結(jié)果如下圖所示:
- 從證據(jù)檢索的角度來(lái)看:聯(lián)合模型要比流水線(xiàn)模型表現(xiàn)總體要好一些,主要原因是證據(jù)檢索模塊可以被優(yōu)化,從而能夠找到更加能夠幫助驗(yàn)證聲明的證據(jù)。另一方面,使用返回的文檔總比使用谷歌摘要效果要好,主要因?yàn)槭俏臋n包含更加豐富的信息。最后就是直接使用人類(lèi)標(biāo)注的證據(jù)效果遠(yuǎn)遠(yuǎn)超過(guò)了目前的兩大類(lèi)基線(xiàn)模型。和其他事實(shí)核查的數(shù)據(jù)集類(lèi)似(FEVEROUS),證據(jù)檢索是驗(yàn)證聲明的一個(gè)難點(diǎn)。怎么根據(jù)人類(lèi)標(biāo)注的證據(jù)去優(yōu)化證據(jù)檢索模塊是未來(lái)值得研究的方向。
- 從聲明驗(yàn)證的角度來(lái)看:基于圖的模型(KGAT)的表現(xiàn)比基于簡(jiǎn)單的 BERT 和基于注意力的模型要好一些,通過(guò)構(gòu)造圖來(lái)捕捉證據(jù)推理鏈?zhǔn)怯行У姆椒ā5硪环矫?,圖模型的提升并沒(méi)有特別明顯,可能還需要針對(duì)數(shù)據(jù)集本身做一些因地制宜的優(yōu)化。
5.2 細(xì)粒度證據(jù)的數(shù)量
細(xì)粒度證據(jù)的數(shù)量并不是越多越好,如下圖所示,當(dāng)我們選擇 5 個(gè)句子作為細(xì)粒度證據(jù)的時(shí)候,流水線(xiàn)系統(tǒng)里面的證據(jù)抽取器取得了最好的效果,當(dāng)抽取 10 個(gè)和 15 個(gè)句子作為證據(jù)的時(shí)候,效果越來(lái)越差,我們猜測(cè)是抽取的句子里面引入了比較多的噪聲,影響了聲明驗(yàn)證的模型進(jìn)行判斷。
5.3 聲明長(zhǎng)度的影響
絕大部分的聲明都大于 10 個(gè)詞,其中長(zhǎng)度越長(zhǎng)模型效果越好,我們猜想主要原因是聲明比較詳細(xì),比較容易搜集到的詳盡的證據(jù)幫助模型進(jìn)行判斷。在聲明長(zhǎng)度比較短的時(shí)候,集中基線(xiàn)模型的差距不是很大,當(dāng)長(zhǎng)度比較長(zhǎng)的時(shí)候,拿到的證據(jù)越好,聲明驗(yàn)證的效果越好,也說(shuō)明了證據(jù)檢索這一環(huán)節(jié)的重要性。
5.4 聲明領(lǐng)域的影響
來(lái)自于科學(xué)領(lǐng)域的聲明最難被驗(yàn)證,模型效果基本都不超過(guò) 55。一方面是比較難搜集到相關(guān)的證據(jù),另一方面是關(guān)于科學(xué)議題的聲明相對(duì)比較復(fù)雜,往往需要隱式的推理才能得到結(jié)果。
5.5 聲明類(lèi)別的影響
如圖所示,即使我們引入了部分 Supported 的聲明,但是整個(gè)數(shù)據(jù)集仍然存在類(lèi)別不平衡的問(wèn)題。模型在 NEI 這個(gè)類(lèi)別上的效果要遠(yuǎn)遠(yuǎn)弱于 Supported 和 Refuted 這兩個(gè)類(lèi)別。未來(lái)的工作可以研究如果針對(duì)類(lèi)別不平衡的事實(shí)核查數(shù)據(jù)集,調(diào)整聲明驗(yàn)證的模型,或者使用數(shù)據(jù)增強(qiáng)的方法,在訓(xùn)練過(guò)程中隨機(jī)增加 NEI 的數(shù)量,比如 FEVEROUS[13]在訓(xùn)練過(guò)程中就隨機(jī)針對(duì)一些聲明扔掉對(duì)應(yīng)的證據(jù),然后將這些聲明的類(lèi)別改為 NEI。