Unified Scientific Multimodal Foundation Model
v1 · interactive idle
Architecture · Interactive

S1-Omni · 科学多模态统一理解与生成模型

面向文本、图像、化学材料、蛋白质与谱图等复杂科学对象,建立统一表示、推理与生成能力。

01
5 科学模态统一接入 text · image · chem · protein · spectra
02
U2G 理解到生成闭环 understanding → generation, end-to-end
03
CoT 先科学思考后生成范式 reason first, then generate
点击底部任一编码器 触发完整 forward pass
Text Token Chem Token Spectra Token Protein Token Vision Token Hidden State Decoded Token
Decoder · 01 · Text Reasoning
文本推理 / 结构化答案
autoregressive · LM head · always-on
等待输入
hidden vectors → tokens
Decoder · 02 · Linear
线性预测 (回归 / 分类)
shared head · 12 sources
等待输入
hidden vectors → values
Decoder · 03 · Structure
3D 结构生成
geometry-aware · coords regress
等待输入
hidden vectors → coords
Decoder · 04 · Image / DiT
图像生成与编辑
MLP align + DiT · 1024²
等待输入
hidden vectors → patches
Unified Multimodal Transformer
64L 32B 5,120d
L₃
L₂
L₁
TEXT BPE tokenizer
文本指令编码器
Q请选择右侧任一科学模态发起任务
Ctx
Cmd
seq_len ≈ —+task tokens
CHEM SMILES / CIF tokenizer
材料化学编码器
CC(=O)Oc1ccccc1C(=O)O
atoms · bonds<linear_pre>
SPECTRA Conv1D + linear proj
光谱信号编码器
IR · UV · Ramanpeak embed
PROTEIN aa-seq tokenizer
蛋白质编码器
MKTAYIAKQRQISFVKS
HFSRQLEERLGLIEVQA
PILSRVGDGTQDNLSGAEK
aa residues<|protein_pad|>
IMAGE ViT · S1-VL
科学图像编码器
14×14 patchvision hidden