4月30日,德適(02526.HK)在香港發(fā)布醫(yī)療AI評測平臺DoctorBench,并揭曉首期全球醫(yī)療大模型排行榜。杭州智診科技的WiseDiag-v2、谷歌的Gemini-3.1-Pro-Preview、OpenAI的GPT—5.4位列前三。
據(jù)介紹,該平臺首次以“臨床實戰(zhàn)能力”為核心標尺,為全球醫(yī)療大模型構(gòu)建起一套貼近真實診療場景的多維評測體系。
當(dāng)前,全球醫(yī)療大模型正加速從實驗室走向臨床應(yīng)用,但行業(yè)始終缺乏一套能夠真正衡量模型“看病能力”的評測標準。現(xiàn)有的評測大多聚焦于醫(yī)學(xué)知識問答,難以反映模型在復(fù)雜臨床情境中的綜合表現(xiàn)——這種評測與臨床實踐之間的鴻溝,正在成為制約醫(yī)療AI落地應(yīng)用的全球性挑戰(zhàn)。
此前,OpenAI發(fā)布HealthBench,標志著領(lǐng)先企業(yè)開始重視這一挑戰(zhàn)。不過,醫(yī)療具有強烈的本土化特征:不同國家和地區(qū)的診療指南、語言習(xí)慣、患者群體存在顯著差異,任何單一評測體系都難以實現(xiàn)全球普適。
正是基于對這一全球性挑戰(zhàn)的深刻認識,德適發(fā)起并打造了DoctorBench平臺。公司匯聚了基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、人工智能、醫(yī)療產(chǎn)業(yè)等多領(lǐng)域的專家,將嚴謹?shù)呐R床醫(yī)學(xué)邏輯與前沿的深度學(xué)習(xí)算法深度融合,讓DoctorBench既能理解AI技術(shù)的邊界,又能洞察臨床實踐的復(fù)雜需求,并以此為標準構(gòu)建評測體系。該平臺構(gòu)建了三大榜單體系:醫(yī)學(xué)主榜單(LLM)、多模態(tài)榜單(VLM)與智能體榜單(Agent),分別評測模型的文本診療能力、多模態(tài)理解能力,以及模擬診療環(huán)境中的多輪決策與工具調(diào)用能力。
在評測機制上,DoctorBench首創(chuàng)“2大核心維度(安全性和準確性)+3項通用維度(交互質(zhì)量、信息優(yōu)先級、主動詢問)+5項專項模塊(證據(jù)與引用、可解釋推理、可執(zhí)行性、個體化適配、情感支持)”的多維架構(gòu),并搭載場景自適應(yīng)權(quán)重:根據(jù)不同臨床場景的風(fēng)險等級,動態(tài)調(diào)整各維度權(quán)重,使評分邏輯更貼近真實診療決策。尤為關(guān)鍵的是,平臺將“醫(yī)學(xué)事實準確”與“安全與風(fēng)險控制”設(shè)定為具有“一票否決權(quán)”的核心紅線:任何模型若在關(guān)乎患者安全的關(guān)鍵問題上出現(xiàn)嚴重偏差,無論其他維度表現(xiàn)如何突出,均無法獲得高分。這一設(shè)計源于團隊對醫(yī)療本質(zhì)的深刻理解:安全性永遠是第一要義。
“醫(yī)療AI的發(fā)展是一場關(guān)乎人類共同健康福祉的長跑,既需要顛覆式的技術(shù)創(chuàng)新和跨學(xué)科、跨地域的深度協(xié)作,更需要對生命健康的絕對敬畏與堅守。” 德適創(chuàng)始人宋寧表示,期待與全球更多科研機構(gòu)、臨床中心和行業(yè)伙伴攜手,讓真正有實力的技術(shù)被看見、被信賴,最終惠及每一位患者。
德適于3月30日正式登陸港交所,成為“全球醫(yī)學(xué)影像大模型第一股”。截至4月30日,該股收報288港元,較發(fā)行價累計漲幅達190.91%。