MMBench是一個多模態(tài)基準測試,由上海人工智能實驗室、南洋理工大學、香港中文大學、新加坡國立大學和浙江大學的研究人員推出。該體系開發(fā)了一個綜合評估流程,從感知到認知能力逐級細分評估,覆蓋20項細粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準數(shù)據(jù)集采集約3000道單項選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項進行評測,循環(huán)打亂選項驗證輸出結(jié)果的一致性,基于ChatGPT精準匹配模型回復(fù)至選項,大家快來AI365導(dǎo)航!
MMBench的特點和優(yōu)勢
- 基于感知與推理,將評估維度逐級細分。約 3000 道單項選擇題,覆蓋目標檢測、文字識別、動作識別、圖像
理解、關(guān)系推理等 20 個細粒度評估維度 - 更具魯棒性的評估方式。相同單選問題循環(huán)選項提問,模型輸出全部指向同一答案認定為通過,相比傳統(tǒng)1次性通過評估 top-1 準確率平均下降 10% ~ 20%。最大程度減少各種噪聲因素對評測結(jié)果的影響,保證了結(jié)果的可復(fù)現(xiàn)性。
- 更可靠的模型輸出提取方法。基于 ChatGPT 匹配模型輸出與選項,即使模型未按照指令輸出也可準確匹配至最合理選項
??版權(quán)聲明:若無特殊聲明,本站所有文章版權(quán)均歸奇想AI導(dǎo)航網(wǎng)原創(chuàng)和所有,未經(jīng)許可,任何個人、媒體、網(wǎng)站、團體不得轉(zhuǎn)載、抄襲或以其他方式復(fù)制發(fā)表本站內(nèi)容,或在非我站所屬的服務(wù)器上建立鏡像。否則,我站將依法保留追究相關(guān)法律責任的權(quán)利。