Architecture · Interactive

S1-Omni · 科学多模态统一理解与生成模型

面向文本、图像、化学材料、蛋白质与谱图等复杂科学对象，建立统一表示、推理与生成能力。

5 科学模态统一接入 text · image · chem · protein · spectra

U2G 理解到生成闭环 understanding → generation, end-to-end

CoT 先科学思考后生成范式 reason first, then generate

点击底部任一编码器 → 触发完整 forward pass

Text Token Chem Token Spectra Token Protein Token Vision Token Hidden State Decoded Token

Decoder · 01 · Text Reasoning

文本推理 / 结构化答案

autoregressive · LM head · always-on

等待输入

hidden vectors → tokens

Decoder · 02 · Linear

线性预测 (回归 / 分类)

shared head · 12 sources

等待输入

hidden vectors → values

Decoder · 03 · Structure

3D 结构生成

geometry-aware · coords regress

等待输入

hidden vectors → coords

Decoder · 04 · Image / DiT

图像生成与编辑

MLP align + DiT · 1024²

等待输入

hidden vectors → patches

Unified Multimodal Transformer

64L 32B 5,120d

L₃

L₂

L₁

TEXT BPE tokenizer

文本指令编码器

Q请选择右侧任一科学模态发起任务

Ctx—

Cmd—

seq_len ≈ —+task tokens

CHEM SMILES / CIF tokenizer

材料化学编码器

CC(=O)Oc1ccccc1C(=O)O

atoms · bonds<linear_pre>

SPECTRA Conv1D + linear proj

光谱信号编码器

IR · UV · Ramanpeak embed

PROTEIN aa-seq tokenizer

蛋白质编码器

MKTAYIAKQRQISFVKS
HFSRQLEERLGLIEVQA
PILSRVGDGTQDNLSGAEK

aa residues<|protein_pad|>

IMAGE ViT · S1-VL

科学图像编码器

14×14 patchvision hidden

S1-Omni · 科学多模态统一理解与生成模型

Tweaks