pljj315's blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
基于反演的图像编辑Inversion_based_editing in flow_matching models

基于反演的图像编辑Inversion_based_editing in flow_matching models

前言:基于扩散/流生成模型中的图像编辑: test-time optimization:规模性的微调训练,如FLUX-Fill 模型、FLUX-redux万物迁移 optimization-free: Inversion-reconstruction:如 RF-Inversion,RF-Edit,并不能算“编辑”,更像“图生图”,适合风格迁移,无法背景保持,耗时 step*2 Inv
2025-04-08
Research Insights
#DiT #Flow_based #图像编辑 #Inversion
Flow-based基于流的图像生成

Flow-based基于流的图像生成

多模态理解与生成 分类: 基于扩散的:都是估计一种分布转换 基于扩散Diffusion: ϵ -Prediction,UNet、DiT、MM-DiT;估计噪声/数据分布,不限定==>也就是走曲线的概率密度转换路径:缺:训练时间长采样慢 前行过程:通过不可学习的Schedule 对样本进行加噪,多次加噪变换为正态分布 反向过程:从正态分布采样,并通过模型隐式的
2025-04-07
Research Insights
#DiT #多模态 #flow_based #flux sd3
Video_Generation视频生成

Video_Generation视频生成

Diffusion based methods:图生视频: 文生图模型 + 时序建模:时序建模技术包括:“inter-frame attention”即temporal-layers,或者motion_module; 文生视频模型 + 图片特征:视觉特征提取(CLIP-image-encoder、Parallel-UNet-encoder / ControlNet),latent初始化
2025-03-26
Research Insights
#stable_video_diffusion
AutoRegressive自回归图像生成

AutoRegressive自回归图像生成

自回归模型(AR):通过对序列中先前的输入进行测量来自动预测序列中的下一个分量,是一种用于时间序列分析的统计技术,它假设时间序列的当前值是其过去值的函数。自回归模型使用类似的数学技术来确定序列中元素之间的概率相关性。然后,它们使用所得知识来猜测未知序列中的下一个元素。视觉自回归模型(VAR): 自回归图像生成技术探索路线:VQ-GAN、ImageGPT、CogView、JetFormer: Ch
2025-03-26
Research Insights
#AutoRegressive #图像生成
Error-records:DDP

Error-records:DDP

Linear实现MLP :输入数据形式:形状为[N, *, in_features]的tensor,N为batch size,这个参数是PyTorch各个数据操作中都具备的,相似的,输出数据形式为[N, *, out_features] n_features:每个输入样本的大小,对应MLP中当前层的输入节点数/特征维度 out_features:每个输出样本的大小,对应MLP中当前
2025-03-17
Error records
#DDP分布式训练
Stylized-generation-based-diffusion风格化生成

Stylized-generation-based-diffusion风格化生成

Stylized generation(Based-Diffusion)基于扩散模型的风格化生成面试时被问到关于风格化生成的发展路线,一下子紧张只说出了2个工作,但其实Diffusion发展至今已经有很多这方面的工作了。现在来做个总结,梳理一下风格迁移/风格化生成的发展路线,加深一下理解。 本文前提:只考虑由图像描述的风格提示,即风格是由一张具由显著风格的图像来进行控制的,本文称之为”
2025-02-27
Research Insights
#diffusion #text-to-img #img-to-img #大模型 #style-transfer #stylized-generation #风格化生成
Paper Reading:MV_Adapter_multi-view_consistent_image_generation_made_easy- 2024.12

Paper Reading:MV_Adapter_multi-view_consistent_image_generation_made_easy- 2024.12

Paper-Reading:MULTI-VIEW CONSISTENT IMAGE GENERATION MADE EASY - 2024.12关键概括:训练了一个即插即用的adapter,能够在各种diffusion模型下,通过相机参数或者几何信息对视角进行指导,进行多视角的一致性角色生成。 decoupled attention mechanism:新的自注意力层来源于对原自注意力层的复制
2025-02-23
Paper Reading
#diffusion #text-to-img #论文阅读 #multi-view

算法——leetcode

刷题以及快速刷题的技巧: 先掌握好数据结构以及对应的常考算法,对应着下述刷题规划网站思考+看题解;先在心里大概记忆算法和对应的示例题目,快速了解算法。 自己计算空间复杂度、时间复杂度; 算法讲解、刷题路线规划:好用网站 代码随想录 labuladong算法笔记 github-技术面试及刷题整理-CS-Notes 总体路线:数据结构 + 算法:经典题 算法书籍: 剑指offer 系列 算法知识点
2025-01-27
LeetCode highlights
#leetcode刷题
diffusion VS control

diffusion VS control

Research Insights: diffusion VS control文章目的:从大四接触diffusion到现在已经接近2年,温故而知新,最近在回顾之前阅读过的工作,也总结一下在control方面的技术发展路线,看看能否给带来点启发。谈到control技术的分类,很多工作被统一归纳为“encoder-based methods”,但这种归纳还是太”大“了,这里用我自己的理解做一些更细致的
2025-01-09
Research Insights
#diffusion #text-to-img #control #img-to-img #大模型
Paper Reading:Nested Attention:Semantic-aware Attention Values for Concept Personalization-2025

Paper Reading:Nested Attention:Semantic-aware Attention Values for Concept Personalization-2025

Nested Attention: Semantic-aware Attention Values for Concept Personalization-2025关键概括:injects a rich and expressive image representation into the model’s existing cross-attention layers. ==
2025-01-08
Paper Reading
#attention #diffusion #text-to-img #personalization #论文阅读
12

搜索

github