可以采用哪些KPI來衡量人工智能項目的成功?
調(diào)研機構(gòu)IDC公司在2020年6月發(fā)布的一項研究報告表明,大約28%的人工智能計劃遭遇失敗。報告給出的理由是缺乏專業(yè)知識、缺乏相關(guān)數(shù)據(jù)以及缺乏足夠集成的開發(fā)環(huán)境。為了建立一個持續(xù)改進(jìn)機器學(xué)習(xí)的過程并避免陷入困境,確定關(guān)鍵績效指標(biāo)(KPI)現(xiàn)在是當(dāng)務(wù)之急。
而在行業(yè)上游,可以由數(shù)據(jù)科學(xué)家來定義模型的技術(shù)性能指標(biāo)。它們將根據(jù)所使用的算法類型而有所不同。在旨在預(yù)測某人的身高作為其年齡函數(shù)的回歸的情況下,例如,可以求助于線性確定系數(shù)。
可以采用一個衡量預(yù)測質(zhì)量的方程:如果相關(guān)系數(shù)的平方為零,回歸線確定0%的點分布。反之,如果該系數(shù)為100%,則該數(shù)字等于1。因此,這表明預(yù)測的質(zhì)量非常好。
預(yù)測與現(xiàn)實的偏差
評估回歸的另一個指標(biāo)是最小二乘法,它指的是損失函數(shù)。它包括通過計算實際值與預(yù)測線之間偏差的平方和來量化誤差,然后通過最小化平方誤差來擬合模型。在相同的邏輯中,可以利用平均絕對誤差方法,該方法包括計算偏差的基本值的平均值。
法國咨詢機構(gòu)凱捷公司負(fù)責(zé)戰(zhàn)略、數(shù)據(jù)和人工智能服務(wù)的CharlottePierron-Perlès總結(jié)說:“無論如何,這相當(dāng)于衡量與我們試圖預(yù)測的差距。”
例如,在用于垃圾郵件檢測的分類算法中,有必要查找誤報和漏報的垃圾郵件。PierronPerlès解釋說:“例如,我們?yōu)橐患一瘖y品集團(tuán)開發(fā)了一種機器學(xué)習(xí)解決方案,可以優(yōu)化生產(chǎn)線的效率。目的是在生產(chǎn)線開始時識別可能導(dǎo)致生產(chǎn)中斷的有缺陷的化妝品。我們在與工廠經(jīng)營者討論之后與他們一起尋求一個模型來完成檢測,即使這意味著檢測到誤報,也就是說,合格的化妝品可能被誤認(rèn)為是有缺陷的?!?/p>
基于誤報和漏報的概念,其他三個指標(biāo)允許評估分類模型:
(1)召回率(R)是指模型敏感度的測量值。它是正確識別的真實陽性(以新冠病毒檢測呈陽性為例)與所有應(yīng)檢測的真實陽性(冠狀病毒檢測呈陽性+冠狀病毒檢測呈陰性實際是陽性)的比例:R=真陽性/真陽性+假陰性。
(2)精度(P)是指準(zhǔn)確度的度量。它是正確的真陽性(新冠病毒檢測呈陽性)與所有確定為陽性的結(jié)果(新冠病毒檢測呈陽性+新冠病毒檢測呈陰性)的比例:P=真陽性/真陽性+假陽性。
(3)調(diào)和平均值(F-score)衡量模型給出正確預(yù)測和拒絕其他預(yù)測的能力:F=2×精度×召回率/精度+召回率
模型的推廣
法國ESNKeyrus公司首席高級數(shù)據(jù)科學(xué)家DavidTsangHinSun強調(diào)說:“一旦構(gòu)建成模型,其泛化能力將成為關(guān)鍵指標(biāo)?!?/p>
那么如何估計它?通過測量預(yù)測和預(yù)期結(jié)果之間的差異,然后了解這種差異隨時間的演變。他解釋說,“在一段時間之后,我們可能會遇到分歧。這可能是由于數(shù)據(jù)集在質(zhì)量和數(shù)量方面的訓(xùn)練不足而導(dǎo)致的學(xué)習(xí)不足(或過度擬合)?!?/p>
那么其解決方案是什么?例如,在圖像識別模型的情況下,可以使用對抗性生成網(wǎng)絡(luò)通過旋轉(zhuǎn)或扭曲來增加圖片學(xué)習(xí)的數(shù)量。另一種技術(shù)(適用于分類算法):合成少數(shù)過采樣,它包括通過過采樣增加數(shù)據(jù)集中低發(fā)生率示例的數(shù)量。
在過度學(xué)習(xí)的情況下也會出現(xiàn)分歧。在這種配置中,模型在訓(xùn)練后將不會局限于預(yù)期的相關(guān)性,但是由于過于專業(yè)化,它會捕獲現(xiàn)場數(shù)據(jù)產(chǎn)生的噪聲并產(chǎn)生不一致的結(jié)果。DavidTsangHinSun指出,“然后有必要檢查訓(xùn)練數(shù)據(jù)集的質(zhì)量,并可能調(diào)整變量的權(quán)重?!?/p>
而經(jīng)濟的關(guān)鍵績效指標(biāo)(KPI)依然存在。法國咨詢機構(gòu)AIBuilders公司首席執(zhí)行官StéphaneRoder認(rèn)為:“我們必須捫心自問,錯誤率是否與業(yè)務(wù)挑戰(zhàn)相符。例如,保險商Lemonade公司開發(fā)了一種機器學(xué)習(xí)模塊,可以在客戶提出索賠后3分鐘內(nèi)根據(jù)所傳達(dá)的信息(包括照片)向客戶賠付保險金??紤]到節(jié)省的費用,一定的錯誤率會產(chǎn)生成本。在模型的整個生命周期中,特別是與總體擁有成本(TCO)相比,從開發(fā)到維護(hù),檢查這一測量值是非常重要?!?/p>
采用水平
即使在同一家公司內(nèi),預(yù)期的關(guān)鍵績效指標(biāo)(KPI)也可能有所不同。凱捷公司的CharlottePierronPerlès指出:“我們?yōu)橐患揖哂袊H地位的法國零售商開發(fā)了一個消費預(yù)測引擎。結(jié)果證明該模型的精確目標(biāo)在百貨商店銷售的產(chǎn)品和新產(chǎn)品之間是不同的。后者的銷售動態(tài)取決于因素,尤其是與市場反應(yīng)相關(guān)的因素,從定義上來說,這些因素不太可控?!?/p>
最后一個關(guān)鍵績效指標(biāo)是采用水平。CharlottePierron-Perlès說:“即使一個模型質(zhì)量很好,僅靠它自己是不夠的。這需要開發(fā)具有面向用戶體驗的人工智能產(chǎn)品,既可用于業(yè)務(wù),又可實現(xiàn)機器的承諾學(xué)習(xí)?!?/p>
StéphaneRoder總結(jié)說:“這個用戶體驗還將允許用戶提供反饋,這將有助于在日常生產(chǎn)數(shù)據(jù)流之外提供人工智能知識?!?/p>