natural2 Evo 2

3个月前发布 27 0 0

Evo 2是一个先进的DNA语言模型,专注于长上下文建模和设计。Evo 2能够处理长达100万个碱基对的DNA序列,提供高精度的单核苷酸分辨率建模。

收录时间:
2025-03-06
natural2 Evo 2natural2 Evo 2

Evo 2项目介绍

Evo 2是一个先进的DNA语言模型,专注于长上下文建模和设计。以下是对Evo 2的详细介绍:

natural2 Evo 2

一、技术特点

  1. 长上下文建模
    • Evo 2能够处理长达100万个碱基对的DNA序列,提供高精度的单核苷酸分辨率建模。
  2. 先进的架构
    • 基于StripedHyena 2架构,结合Transformer Engine FP8,Evo 2在处理复杂DNA序列时表现出色。
  3. 大规模预训练
    • 使用Savanna框架在OpenGenome2数据集上进行预训练,该数据集包含来自所有生命领域的8.8万亿个标记。

二、模型与检查点

Evo 2提供了多个模型检查点,供用户下载和使用:

  • evo2_40b:一个使用100万上下文进行预训练的模型,基于evo2_40b_base的上下文扩展。
  • evo2_7b:一个使用100万上下文进行预训练的模型,基于evo2_7b_base的上下文扩展。
  • evo2_40b_base:一个使用8192上下文长度进行预训练的模型。
  • evo2_7b_base:一个使用8192上下文长度进行预训练的模型。
  • evo2_1b_base:一个较小的模型,使用8192上下文长度进行预训练。

三、使用方式

用户可以通过Python代码下载并使用Evo 2进行DNA序列的建模和设计。以下是一些简单的使用示例:

  1. 评分:计算DNA序列的似然值。
  2. 嵌入:保存Evo 2生成的嵌入用于下游任务。
  3. 生成:基于提示生成DNA序列。

此外,Evo 2还提供了示例笔记本,包括零样本BRCA1变异效应预测等应用案例。

四、性能优化与数据集

  • 性能优化:ArcInstitute正在积极优化Evo 2在长序列处理方面的性能。目前,Vortex可以通过教师提示来计算非常长的序列,但请注意,长序列的前向传播可能会较慢。
  • 数据集:OpenGenome2数据集可用于预训练Evo 2,该数据集可在HuggingFace上获取,包括原始FASTA文件和预处理后的JSONL文件。

五、引用与致谢

如果用户在研究中使用了Evo 2模型,请引用相关论文:“Genome modeling and design across all domains of life with Evo 2”,由Garyk Brixi等人撰写,发表于Arc Institute Manuscripts,2025年。

综上所述,Evo 2是一个功能强大的DNA语言模型,适用于长上下文建模和设计。用户可以通过GitHub上的开源项目获取并使用该模型进行各种DNA序列相关的研究和应用。

相关导航

没有相关内容!