平安刷新史丹福機器閱讀理解排行榜SQuAD 2.0 準確率超越人類平均水平
香港,上海,2020年3月27日-中國平安保險(集團)股份有限公司(以下簡稱「中國平安」、「平安」、「集團」或「公司」,股票代碼:香港證券交易所2318,上海證券交易所601318)宣佈,平安科技(深圳)有限公司(以下簡稱「平安科技」)刷新由史丹福大學舉辦、備受國際認可的機器閱讀理解測試(Stanford Question Answering Dataset,SQuAD 2.0),其機器閱讀理解模型表現超越人類平均水平。此次為平安科技第三度刷新该榜单。
SquAD廣受人工智能行業認可。SQuAD1.1測試基於逾500篇維基百科的文章,建立超過10多萬條問答。SQuAD2.0新增了5萬條人手撰寫的問題,使測試更具挑戰性。新增的問題與原有的問題相似,但在所提供的文章裏並沒有對應的答案。因此,參賽團隊所提交的機器閱讀理解模型需要通過閱讀多篇文章,判斷能否從中找出答案。對於無法回答的題目,該模型必須拒答。
在本次測試中,平安科技所提交的「ALBERT + DAAF + Verifier」混合模型在代表回答跟標準答案完全一致的精準匹配率(EM)中獲得90.386分,而在代表回答跟標準答案局部吻合的模糊匹配率(F1)中獲得92.777分,兩項成績均位列全球第一。DAAF(Data Augmentation and Auxiliary Feature)是平安研發的學習框架,在此次測試中發揮關鍵作用。該框架涵蓋前向及後向算法,前向算法可以基於從外部數據中吸收數據,取得效果提升,至於後向算法則可以自動篩除對提升效果構成負面影響的數據。
平安的兩項成績均優於人類平均水平。根據SQuAD2.0,平安在EM指標所取得的90.386分較人類平均水平高3.56個百分點,而在F1指標所取得的92.777分則較人類平均水平高3.33個百分點。
在過往的SQuAD測試中,微軟、谷歌、阿里巴巴等團隊輪番奪魁。截至2020年3月27日,平安在SQuAD2.0榮登榜首,上海交通大學及谷歌緊隨其後,分別位列第二位及第四位。