Flow-based基于流的图像生成

多模态理解与生成分类：

基础框架：

阅读博文：

flow: 使用时间参数化的向量场来定义一个流函数 Flow，从而在连续时间内对概率密度进行变换

marginal distribution: 边际分布？

可以把Rectified Flow理解为保持线性插值边缘分布相等的，具有因果的ODE

常见的Flow-based包括：

Normalizing Flow：离散可逆变换，对概率分布进行建模，实现从先验分布（即，高斯分布）到目标分布的可逆转换过程并采样生成；
Continuous Normalizing Flow（CNF）：连续可逆变换【ODE】；
- Rectified Flow（linear flows）2022.10：一步沿着直线采样生成【ODE】：Domain Transfer，两次训练
- Flow Matching（FM）、Conditional Flow Matching（CFM）2022.10：【ODE】：几乎同上

Rectified flow + 【蒸馏与 Reflow回流的区别】

Rectified Flow

先验分布设定为高斯分布，包括μ_t均值函数、sigma_t标准差函数的不同，可以构建不同的高斯条件概率路径：

博文阅读：

ViT = Transformer用在CV领域：将图像进行 patchify 得到固定大小的 patch 序列，作为输入馈送进标准 Transformer Encoder，然后进行下游任务的处理

DiT = 调整Normalization后的ViT + LDM（输入是latent）：

TimestepEmbedder: timestep_embedding(对数正弦位置编码，log_SPE) + MLP结构
LabelEmbedder: dropout丢弃实现CFG能力
DiTBlock: SelfAttention、FeedForward、Normalization: DiT 使用 adaln_zero 来代替标准 transformer 中的 Layer Normalization
Final Layer：
Patchify： timm.PatchEmbed（）:2*2， SPE位置编码

ViT 到 DiT

主要贡献：
1）改进的噪声采样技术（Improved Noise Sampling Techniques）：

作者针对修正流模型（Rectified Flow Models）提出了一种新的噪声采样方法（Timestep Samplers），这种方法通过偏向感知相关尺度（perceptually relevant scales）来提高训练效率和生成图像的质量。这种改进有助于模型在训练过程中更有效地学习数据到噪声的转换过程。
introducing a re-weighting of the noise scales in rectified flow models：SNR采样器
提到了一个diffusion的scheduler缺陷：Common Diffusion Noise Schedules and Sample Steps are Flawed

2）MM-DiT：novel transformer-based architecture 文图双向流

博文阅读：

主要贡献

FLUX

阅读博文：

Positional Encoding：就是将位置信息添加（嵌入）到Embedding词向量中，让Transformer保留词向量的位置信息，可以提高模型对序列的理解能力；

位置编码分类：

绝对位置编码 Absolute Position Embedding：
- 学习式位置编码（Learned Positional Embedding）：方法是最普遍的绝对位置编码方法，该方法直接对不同的位置随机初始化一个 postion embedding，加到 word embedding 上输入模型，作为参数进行训练；举例：BERT、GPT-2
- 正弦位置编码（Sinusoidal Positional Encoding, SPE）：是通过将正弦和余弦函数的不同频率应用于输入序列的位置来计算位置编码；
相对位置编码 Relative Position Embedding：
- Learned Positional Encoding：通过学习一组可学习参数来计算位置编码-
- 旋转位置编码RoPE