S1
·
Omni
Unified Scientific Multimodal Foundation Model
v1 · interactive
idle
Architecture · Interactive
S1-Omni
· 科学多模态统一理解与生成模型
面向文本、图像、化学材料、蛋白质与谱图等复杂科学对象,建立统一表示、推理与生成能力。
01
5 科学模态统一接入
text · image · chem · protein · spectra
02
U2G 理解到生成闭环
understanding → generation, end-to-end
03
CoT 先科学思考后生成范式
reason first, then generate
点击底部任一编码器
→
触发完整 forward pass
Text Token
Chem Token
Spectra Token
Protein Token
Vision Token
Hidden State
Decoded Token
Decoder · 01 · Text Reasoning
文本推理 / 结构化答案
autoregressive · LM head · always-on
等待输入
hidden vectors → tokens
Decoder · 02 · Linear
线性预测 (回归 / 分类)
shared head · 12 sources
等待输入
hidden vectors → values
Decoder · 03 · Structure
3D 结构生成
geometry-aware · coords regress
等待输入
hidden vectors → coords
Decoder · 04 · Image / DiT
图像生成与编辑
MLP align + DiT · 1024²
等待输入
hidden vectors → patches
Unified Multimodal Transformer
64
L
32B
5,120
d
L₃
L₂
L₁
TEXT
BPE tokenizer
文本指令编码器
Q
请选择右侧任一科学模态发起任务
Ctx
—
Cmd
—
seq_len ≈ —
+task tokens
CHEM
SMILES / CIF tokenizer
材料化学编码器
CC(=O)Oc1ccccc1C(=O)O
atoms · bonds
<linear_pre>
SPECTRA
Conv1D + linear proj
光谱信号编码器
IR · UV · Raman
peak embed
PROTEIN
aa-seq tokenizer
蛋白质编码器
MKTAYIAKQRQISFVKS
HFSRQLEERLGLIEVQA
PILSRVGDGTQDNLSGAEK
aa residues
<|protein_pad|>
IMAGE
ViT · S1-VL
科学图像编码器
14×14 patch
vision hidden
Tweaks
动画速度
循环演示
token 流