
LLMeval/llmeval-3
LLMEval3 是由复旦大学自然语言处理(NLP)实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类,包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科,确保评测的全面性和深度。
AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。基于统一的评测标准,AGI-Eval提供业内大语言模型的全面能力得分排名,涵盖综合评测及各专项能力评测,数据透明、权威。
AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。以下是对该评测社区的详细介绍:
AGI-Eval评测社区以“评测助力,让AI成为人类更好的伙伴”为使命,致力于构建一个公正、可信、科学且全面的评测生态体系。该平台专注于评估基础模型在人类认知与问题解决任务中的通用能力,通过一系列精心设计的考试,直接关联并衡量模型与人类决策、认知能力的契合度,进而揭示其在现实生活中的适用性与有效性。
评测榜单:
评测集社区:
人机比赛:
Data Studio:
AGI-Eval评测社区凭借其专业、全面的评测体系,已经成为AI模型评测领域的佼佼者。它不仅为AI技术的精准应用提供了有力支持,还促进了AI与人类社会的深度融合,共同探索智能未来的无限可能。如果您对AI模型评测感兴趣,不妨关注AGI-Eval评测社区,了解最新的评测动态和技术进展。







