登录
注册
午方 AI 获悉,OpenAI 正式推出 LifeSciBench 评估基准,旨在量化人工智能系统在现实世界科学研究场景中的综合效能。该基准由 173 位具备博士学位及生物技术或制药行业经验的研究人员共同构建,包含 750 项精心设计的任务,覆盖 7 种科研工作流程及 7 个生物学科领域。
LifeSciBench 着重考察 AI 在证分析、科学推理及科学交流等复杂维度的表现,而非局限于单一事实性问答。数据显示,超过 79% 的任务涉及多步骤推理,平均每题需经历约 4 个推理环节,并附带 1,062 份真实研究数据文件,包括论文、图表、序列数据及结构文件等。