星空导航

帅气的我简直无法用语言描述！

文章38 网址3223 书籍0 软件10 评论0

Chatbot Arena

Chatbot Arena 由非营利组织 LMSYS Org 开发，该组织由多家高校和研究机构合作成立，旨在推动大型模型技术的普及和应用。Chatbot Arena 是一个大模型评测排行榜和竞技场，旨在通过众包和用户投票的方式，评估大型语言模型（LLMs）在实际对话任务中的性能。

1130

AI数据模型评测 # Chatbot Arena

AGI Eval评测社区

AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。基于统一的评测标准，AGI-Eval提供业内大语言模型的全面能力得分排名，涵盖综合评测及各专项能力评测，数据透明、权威。

1170

AI数据模型评测 # AGI-Eval评测社区 # AGIEval

LLMeval/llmeval-3

LLMeval/llmeval-3

LLMEval3 是由复旦大学自然语言处理（NLP）实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科，确保评测的全面性和深度。

1130

AI数据模型评测 # LLMeval # llmeval-3

H2oGPT

H2oGPT 是一个功能强大、灵活易用的开源项目，为用户提供了全新的文档处理和对话体验。H2oGPT 基于 Apache V2 许可，是一个完全开源的项目。这意味着用户可以免费使用、修改和分发代码，同时促进社区合作和贡献。

1190

AI数据模型评测 # H2O EVAL GPT # H2oGPT # H2O评估工作室

PubMedQA

PubMedQA 是一个专门设计用于支持开发和评估能够在生物医学文献中找到答案的问答系统的高质量数据集。它由PubMed文献库中的数据构建而成，这些文献库是全球最大的生物医学文献数据库之一。

1520

AI数据模型评测常用推荐 # PubMedQA # 文献库 # 生物医学文献

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性，并且更类似于人类评估知识的方式。该基准涵盖了STEM（科学、技术、工程和数学）、人文、社会科学等领域的57个学科，难度从初级到高级专业水平不等，既考验世界知识，也考验解决问题的能力。

1430

AI数据模型评测常用推荐 # MMLU Dataset # 大规模多任务语言理解数据集

广东金融学院

广东金融学院是华南地区唯一的金融高等院校，致力于培养具有金融专业知识和实践能力的高素质人才。学校拥有金融、保险和会计学三个专业硕士授予点，为申请博士点奠定了坚实基础。

1300

常用推荐 # 广东金融学院

allo lugh阿路和如

allo&lugh（中文名：阿路和如）是一个源自韩国的中高端儿童国际品牌，2007年allo&lugh进入中国市场，针对中国0-7岁婴幼童需求，提供儿童服饰及周边产品。

1290

常用推荐 # allo lugh # 阿路和如

雪佛兰（Chevrolet）

雪佛兰轿车系列包括科鲁兹、科沃兹、迈锐宝XL等车型。雪佛兰SUV系列包括探界者、开拓者等车型。雪佛兰皮卡系列以索罗德（Silverado）为代表，这些车型拥有强劲的动力、坚固的车身和出色的承载能力，是商业运输和越野探险的理想选择。

1430

常用推荐 # Chevrolet # 雪佛兰

RakuTen

Rakuten（乐天）是一家日本的综合性互联网企业，乐天是日本最大的电商平台之一，拥有庞大的用户群体和丰富的商品种类。乐天市场（Rakuten Ichiba）允许商家在此平台上销售商品和服务，类似于亚马逊和阿里巴巴。

1280

常用推荐 # RakuTen # 乐天

BOY LONDON

BOY LONDON是一个源自英国的时尚品牌，BOY LONDON代表着“朋克、先锋、自由”的时尚精神，秉承着多元化、包容性和差异性的品牌理念。BOY LONDON的服装产品包括男装、女装、童装等，涵盖了T恤、衬衫、外套、裤子等多种款式。

1390

常用推荐 # BOY LONDON # boylondon

欧莱雅

欧莱雅（L'OREAL）是全球知名的美妆巨头，业务涵盖彩妆、护肤、护发、染发与男士护肤和造型等多个领域。

1390

常用推荐 # 欧莱雅