星空导航

帅气的我简直无法用语言描述!
Chatbot Arena

Chatbot Arena

Chatbot Arena 由非营利组织 LMSYS Org 开发,该组织由多家高校和研究机构合作成立,旨在推动大型模型技术的普及和应用。Chatbot Arena 是一个大模型评测排行榜和竞技场,旨在通过众包和用户投票的方式,评估大型语言模型(LLMs)在实际对话任务中的性能。
950
AGI Eval评测社区

AGI Eval评测社区

AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。基于统一的评测标准,AGI-Eval提供业内大语言模型的全面能力得分排名,涵盖综合评测及各专项能力评测,数据透明、权威。
940
LLMeval/llmeval-3

LLMeval/llmeval-3

LLMEval3 是由复旦大学自然语言处理(NLP)实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类,包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科,确保评测的全面性和深度。
1000
H2oGPT

H2oGPT

H2oGPT 是一个功能强大、灵活易用的开源项目,为用户提供了全新的文档处理和对话体验。H2oGPT 基于 Apache V2 许可,是一个完全开源的项目。这意味着用户可以免费使用、修改和分发代码,同时促进社区合作和贡献。
1070
PubMedQA

PubMedQA

PubMedQA 是一个专门设计用于支持开发和评估能够在生物医学文献中找到答案的问答系统的高质量数据集。它由PubMed文献库中的数据构建而成,这些文献库是全球最大的生物医学文献数据库之一。
1340
MMLU Dataset(大规模多任务语言理解数据集)

MMLU Dataset(大规模多任务语言理解数据集)

MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性,并且更类似于人类评估知识的方式。该基准涵盖了STEM(科学、技术、工程和数学)、人文、社会科学等领域的57个学科,难度从初级到高级专业水平不等,既考验世界知识,也考验解决问题的能力。
1280
广东金融学院

广东金融学院

广东金融学院是华南地区唯一的金融高等院校,致力于培养具有金融专业知识和实践能力的高素质人才。学校拥有金融、保险和会计学三个专业硕士授予点,为申请博士点奠定了坚实基础。
1180
allo lugh阿路和如

allo lugh阿路和如

allo&lugh(中文名:阿路和如)是一个源自韩国的中高端儿童国际品牌,2007年allo&lugh进入中国市场,针对中国0-7岁婴幼童需求,提供儿童服饰及周边产品。
1140
雪佛兰(Chevrolet)

雪佛兰(Chevrolet)

雪佛兰轿车系列包括科鲁兹、科沃兹、迈锐宝XL等车型。雪佛兰SUV系列包括探界者、开拓者等车型。雪佛兰皮卡系列以索罗德(Silverado)为代表,这些车型拥有强劲的动力、坚固的车身和出色的承载能力,是商业运输和越野探险的理想选择。
1210
RakuTen

RakuTen

Rakuten(乐天)是一家日本的综合性互联网企业,乐天是日本最大的电商平台之一,拥有庞大的用户群体和丰富的商品种类。乐天市场(Rakuten Ichiba)允许商家在此平台上销售商品和服务,类似于亚马逊和阿里巴巴。
1040
BOY LONDON

BOY LONDON

BOY LONDON是一个源自英国的时尚品牌,BOY LONDON代表着“朋克、先锋、自由”的时尚精神,秉承着多元化、包容性和差异性的品牌理念。BOY LONDON的服装产品包括男装、女装、童装等,涵盖了T恤、衬衫、外套、裤子等多种款式。
1190
欧莱雅

欧莱雅

欧莱雅(L'OREAL)是全球知名的美妆巨头,业务涵盖彩妆、护肤、护发、染发与男士护肤和造型等多个领域。
1170