2024年度中文大模型阶段性进展评估(10月)
太侠今天分享的是《中文大模型基准测评2024年10月报告》,这份报告由SuperCLUE团队发布,聚焦于2024年度中文大模型的阶段性进展评估。
报告核心结论显示,全球大模型竞争加剧,尤其是OpenAI的o1-preview进一步拉大了与其他模型的差距。国内大模型在持续迭代中表现出色,特别是在理科和文科任务上。
此外,国内外大模型在不同任务上各有优势,而国内端侧小模型也展现出迅速进展。
报告目录:
中文大模型基准SuperCLUE介绍
SuperCLUE测评体系及数据集
总榜、理科榜单、文科榜单、Hard榜单及模型象限
开源榜单及端侧小模型榜单
大模型对战胜率、成熟度指数
评测与人类一致性分析
优秀模型案例介绍
国内大模型关键进展及趋势
SuperCLUE通用能力测评
SuperCLUE专项与行业基准测评
SuperCLUE多模态能力测评
部分内容预览如下: