AI 绘画概述

学习目标：了解 AI 绘画技术的发展历程、市场格局、核心能力和局限性
预计时间：45 分钟
难度：⭐⭐

什么是 AI 绘画？

基本定义

AI 绘画是指利用人工智能技术，通过文本描述、图像输入或其他模态信息，自动生成视觉内容的过程。用户只需用自然语言描述想要的画面，AI 就能在数秒到数分钟内生成一张或多张符合描述的图像。

输入（文本/图像） → AI 模型处理 → 图像输出

三大技术路径

当前 AI 绘画主要依赖以下三种技术路线：

技术路径	代表模型	原理	市场地位
扩散模型	Stable Diffusion、FLUX、DALL-E 3、Midjourney	从纯噪声开始，逐步去噪还原图像	主流路线，占据 95% 以上市场
生成对抗网络	StyleGAN、BigGAN	生成器与判别器对抗训练	历史贡献巨大，但已被扩散模型超越
自回归模型	Parti、DALL-E 1/2	将图像视为 Token 序列逐像素生成	质量较高但速度慢，应用较少

其中扩散模型（Diffusion Model）是当前 AI 绘画的主流技术路线。其核心理念是"从噪声中逐步还原图像"：模型先学习将图像逐步破坏为纯噪声的过程，再反向学习从噪声中恢复出清晰的图像。通过这种方式，模型掌握了图像的分布规律，可以从随机噪声中"涌现"出符合描述的视觉内容。

扩散模型的通俗理解

可以将扩散模型想象成一位雕塑家：随机噪声是一块粗糙的石头，模型通过多步"雕琢"（去噪），逐步显现出符合描述的形态。每一步都在去除少量噪声、增加更多细节，最终形成一幅完整的图像。

与人类创作的区别

维度	人类创作	AI 绘画
创作基础	专业技能、美术功底、多年练习	提示词描述能力、审美判断力
创作速度	数小时到数天	数秒到数分钟
可控程度	完全控制每一个像素	宏观可控，微观随机
一致性	高，绘画风格稳定	中，每次生成有差异
创意来源	自身经验与灵感	训练数据的统计规律
情感表达	丰富，有个人色彩	有限，缺乏真正的情感理解

技术发展历程

AI 绘画技术的发展可以划分为四个阶段，每个阶段都有标志性的产品突破和显著的技术飞跃。

萌芽期（2015—2020）：风格迁移与实验探索

代表产品：

Google DeepDream（2015）
NVIDIA StyleGAN（2018）
OpenAI VQ-VAE（2018）
DeepArt / Prisma 等风格迁移应用

技术特点：

分辨率：256×256 以下
生成速度：分钟级
可控性：极低，以风格迁移为主
核心突破：CNN、GAN 架构的出现

应用场景：

照片风格化（油画、水彩等滤镜）
人脸生成（不可控，仅供研究）
艺术实验与学术研究

市场状态：

纯学术和实验性质
商业化应用局限在 App 特效滤镜
普通用户几乎接触不到核心技术

萌芽期标志

2015 年 Google 发布 DeepDream，首次让公众直观感受到"AI 也能"看"图像"。虽然生成结果充满诡异的狗眼和幻觉，但它打开了"AI 创作视觉内容"这扇门。2018 年的 StyleGAN 则可以生成真假难辨的人脸照片，引发了关于 deepfake 的初步讨论。

爆发期（2021—2022）：文生图进入公众视野

代表产品：

OpenAI CLIP + DALL-E（2021 年 1 月）
DALL-E 2（2022 年 4 月）
Midjourney v3（2022 年 7 月）
Stable Diffusion 1.4（2022 年 8 月）
Google Imagen（2022 年 5 月）

技术特点：

分辨率：512×512 到 1024×1024
生成速度：10-30 秒
可控性：初步具备（提示词控制）
核心突破：CLIP 文本-图像对齐、扩散模型实用化、开源模型发布

应用场景：

社交媒体配图
概念艺术设计
创意灵感获取
个人娱乐创作

市场状态：

公众热情高涨，"AI 绘画"成为年度热词
Midjourney Discord 社区迅速增长
Stable Diffusion 开源引爆自部署热潮
商业化初步启动

爆发期标志

2022 年 8 月 Stable Diffusion 的开源发布，是 AI 绘画史上最重要的转折点之一。它不仅将文生图质量提升到可用水平，更重要的是"免费、开源、可本地运行"这三个特性，让全世界数百万开发者和创作者参与到这个领域。同月，Midjourney v3 以其独特的美学风格吸引了大量设计从业者。

成熟期（2023—2024）：商业级质量与可控性

代表产品：

Midjourney v5/v6（2023 年 3 月 / 2023 年 12 月）
DALL-E 3（2023 年 10 月）
Stable Diffusion XL / SD 3（2023 年 7 月 / 2024 年 6 月）
Adobe Firefly（2023 年 3 月）
FLUX.1（2024 年 8 月）

技术特点：

分辨率：1024×1024 到 2K
生成速度：2-10 秒
可控性：精细控制（ControlNet、LoRA、IP-Adapter）
核心突破：高质量训练数据、CFG 引导、ControlNet 空间控制、LoRA 微调

应用场景：

电商产品图生成
广告创意设计
游戏概念美术
建筑可视化
影视前期设计

市场状态：

商业化大规模推进
企业用户大批量采用
开源生态蓬勃发展
各平台进入价格竞争阶段

成熟期标志

ControlNet 的发布（2023 年 2 月）让 AI 绘画从"随机生成"走向"精确控制"。设计师可以通过边缘图、深度图、姿态骨架等条件，精确控制生成图像的结构和构图。同年，Adobe Firefly 的推出标志着传统设计软件巨头正式拥抱 AI，将 AI 绘画嵌入 Photoshop 等专业工具。

普及期（2025—2026）：高质量、版权安全、行业融合

代表产品：

Midjourney v7/v8（2025 年 6 月 / 2026 年 3 月）
FLUX.2（2025 年 11 月）
SD 3.5 / SD 4
Adobe Firefly（2026 更新，30+ 模型生态）
通义万相 Wan 2.6
即梦 AI Seedream 5.0

技术特点：

分辨率：4K 及以上
生成速度：秒级到实时（FLUX.2 klein 亚秒级推理）
可控性：像素级控制，多参考图融合，文本渲染可靠
核心突破：流匹配架构、实时生成、版权安全框架、API 生态成熟

应用场景：

影视级概念设计
大规模商业广告制作
实时互动创作
行业专用工作流集成
个人创作者日常工具

市场状态：

AI 绘画成为创作标配工具
市场规模快速增长（2026 年预计达 4.8B 美元）
中国平台快速崛起
与设计软件深度集成

四阶段对比总览

维度	萌芽期（2015-2020）	爆发期（2021-2022）	成熟期（2023-2024）	普及期（2025-2026）
分辨率	< 256×256	512×1024	1024×2K	4K+
生成速度	分钟级	10-30 秒	2-10 秒	秒级/实时
可控性	极低	初步	精细（ControlNet/LoRA）	像素级
文字渲染	不可用	极差	部分支持	可靠支持
市场状态	学术实验	公众热情爆发	商业规模推进	行业标配工具

2026 年行业格局

市场规模

根据多家研究机构数据，AI 图像生成市场正处于高速增长阶段。以下为不同口径的估算：

来源	2025 年价值	2026 年价值（预估）	预计 2030/2035	CAGR
Research & Markets	4.3 亿美元	5.1 亿美元	9.7 亿（2030）	17.4%
Fundamental Business Insights	4.68 亿美元	5.41 亿美元	23.9 亿（2035）	17.7%
KSI	-	5.6 亿美元	16.8 亿（2031）	24.6%
zsky.ai（宽口径）	21 亿美元	48 亿美元	123 亿（2028）	~32%

关键观察：

窄口径（纯图像生成软件）：约 5 亿美元（2026 年）
宽口径（含企业 API、平台集成、硬件及生态）：约 48 亿美元（2026 年）
综合 CAGR 范围：17%—32%，取决于统计口径
北美市场占比约 46%

市场细分（zsky.ai 2026 年预估）：

细分领域	2024 年	2025 年	2026 年（预估）	2028 年（预估）	CAGR
消费级平台	3.2 亿	7.8 亿	16 亿	38 亿	36%
企业 API	2.1 亿	5.8 亿	14 亿	42 亿	42%
平台集成	1.5 亿	4.1 亿	9.6 亿	24 亿	35%
开源生态	0.8 亿	1.9 亿	4.8 亿	11 亿	28%
硬件（GPU）	0.4 亿	1.4 亿	3.6 亿	8.5 亿	38%
合计	8 亿	21 亿	48 亿	123 亿	32%

六大主流平台对比

平台	最新模型	所属公司	核心优势	主要局限	目标用户	价格门槛
Midjourney	v8 Alpha（2026.3）	Midjourney Inc.	最佳艺术美感、社区生态强	无免费版、无公开 API	创意设计师	$10/月起
DALL-E 3	DALL-E 3（2023.9）	OpenAI	ChatGPT 深度集成、文字渲染好	API 将于 2026.5 停用	ChatGPT 用户	免费/Plus
Adobe Firefly	Firefly 2026	Adobe	集成 Creative Cloud、30+ 模型	独立使用体验一般	企业设计师	免费/付费
FLUX.2	FLUX.2 / klein	Black Forest Labs	质量最高、本地部署、开源	社区生态不及 SD	开发者/企业	免费/API
SD 3.5	SD 3.5 Large/Medium	Stability AI	开源生态成熟、LoRA 丰富	本地硬件要求高	开发者/研究者	免费开源
通义万相	Wan 2.6（2025.12）	阿里云	中文理解强、中国风格优秀	国际知名度低	中文用户	免费/付费

中国市场亮点

2026 年的中国 AI 绘画市场呈现百花齐放的态势：

通义万相（阿里）：累计生成超 3.9 亿张图像，Wan 2.6 系列支持中文文本生成、多图融合、精细光照控制，在中文场景下表现突出
文心一格（百度）：注册用户超 600 万，基于 ERNIE-ViLG 多模态大模型，2025 年 4 月并入文心一言平台，提供端到端 AI 创作体验
即梦 AI（字节跳动）：月活超 1000 万，Seedream 5.0 Lite 支持 2K 生成 < 1.8 秒，深度集成剪映和抖音生态
可灵 AI（快手）：全球创作者超 6000 万，Kling Image 3.0 Omni 支持 4K 输出，2025 年前三季度营收超 7 亿元
腾讯混元、MiniMax、智谱 CogView 等：各具特色，共同推动中国 AI 绘画市场多元化发展

AI 绘画的核心能力边界

能做什么

AI 绘画在以下领域已经展现了极高的实用价值：

应用领域	说明	效果评级
写实人像/风景	生成照片级真实的人像和自然风景	⭐⭐⭐⭐⭐
概念设计	游戏角色、场景、道具早期概念探索	⭐⭐⭐⭐⭐
产品渲染	电商产品展示图、包装设计预览	⭐⭐⭐⭐
创意插画	各类艺术风格的原创插画	⭐⭐⭐⭐⭐
风格迁移	将一张图的风格转移到另一张图	⭐⭐⭐⭐⭐
局部重绘（Inpainting）	替换或修复图像中的指定区域	⭐⭐⭐⭐
扩展画布（Outpainting）	在现有图像外延扩展新内容	⭐⭐⭐⭐
图像超分	低分辨率图像清晰化	⭐⭐⭐⭐
文字与排版融合	在图像中嵌入文字（2026 年已显著改善）	⭐⭐⭐
多图融合	将多张参考图合并到一张新图中	⭐⭐⭐⭐

暂时不能

尽管发展迅猛，AI 绘画在当前仍存在一些明显的短板：

精确透视与几何：复杂建筑透视、精确的几何比例控制仍不理想，生成的结构可能存在变形
长文本渲染：虽然在改善，但长段落、复杂排版的文字渲染仍有较高错误率
复杂多人交互：多人之间的精准交互动作（如击掌、握手）经常出现肢体穿插
品牌一致性：同一系列多张图的品牌元素（Logo、字体、配色）难以精确保持统一
细节一致性：多张图中同一角色的面部、服装细节可能出现不一致
语义歧义：复杂、模糊或充满歧义的提示词理解仍然困难

关于技术局限

这些"不能"并非永久限制。事实上，2025—2026 年的技术突破已经大幅缩小了这些差距。重要的是在使用时保持合理的预期，并根据工具的强项和弱项规划创作流程。

需要警惕

AI 绘画在带来巨大便利的同时，也伴生了值得严肃对待的风险：

版权问题：训练数据中的版权图像问题仍是法律灰色地带。生成内容与已有作品的"风格相似性"是否构成侵权尚未有统一结论
深度伪造（Deepfake）：生成虚假人物照片、伪造身份的技术门槛越来越低，在隐私保护与身份验证方面提出了新挑战
内容安全：生成暴力、色情、仇恨内容的风险需要平台和使用者共同防范
假信息制造：AI 生成的逼真图像可被用于制造虚假新闻和误导信息
就业冲击：对传统插画师、摄影师等职业的冲击已是现实，职业转型和技能升级刻不容缓

与 AI 视频生成的对比

技术差异

AI 绘画与 AI 视频生成本质上是"近亲"，但存在关键的技术差异：

维度	AI 绘画	AI 视频生成
核心技术	图像扩散模型（U-Net / DiT）	时空扩散模型（Spatio-Temporal DiT）
额外维度	空间（宽 × 高）	空间 + 时间（宽 × 高 × 帧数）
模型复杂度	数十亿参数	数十亿到数百亿参数
计算成本	较低	高 10-100 倍
输出格式	单张图片	多帧连续视频
一致性要求	单张图像 coherence	帧间时序连续性 + 运动自然性

工具生态关系

AI 绘画和 AI 视频生成虽然在技术架构上同源，但工具生态各有侧重：

绘画工具侧重：提示词 + 精细控制（ControlNet、LoRA）、多轮迭代、局部编辑
视频工具侧重：运动控制、时序一致性、镜头语言、声画同步

然而，2025—2026 年二者正在快速融合：

许多视频生成模型（如 Kling 3.0、Seedance 2.0）内置了强大的图像生成能力
Adobe Firefly 同时覆盖图生和视频生成
开源生态中 ComfyUI 同时支持图像和视频工作流

协同工作流

在实际创作中，AI 绘画和 AI 视频生成常常组合使用，形成高效的创作管线：

AI 绘画 → 局部编辑 → 图像到视频 → 视频精修 → 成品

AI 绘画生成关键帧：使用 Midjourney / SD / FLUX 生成高质量图像
局部编辑：使用 Photoshop Firefly / ComfyUI 对图像进行局部修改和优化
图生视频：将精修后的图像输入视频生成工具（Kling、Runway、Sora 等）生成动态内容
视频精修：剪辑、配乐、调色等后期处理

这种"图生 + 视频"的组合工作流，比直接文生视频具有更高的可控性和质量，是当今专业创作者的主流选择。

本章小结

通过本节学习，你应该掌握了：

✅ 基本概念

AI 绘画的定义、三大技术路径（扩散模型为主流）
AI 创作与人类创作的本质差异

✅ 技术发展历程

从萌芽（2015）到普及（2026）的四阶段演进
每一阶段的核心突破、代表产品与市场状态

✅ 行业格局

2026 年全球市场规模约 5—48 亿美元（视统计口径）
六大主流平台对比与竞争态势
中国市场的差异化亮点

✅ 能力边界

AI 绘画擅长的十大应用领域
当前的主要局限和需要注意的风险

✅ 与视频生成的关系

技术同源但复杂度不同
工具生态相互补充
"图生 + 视频"的协同工作流

AI 绘画已经从一个新奇的实验性工具，成长为内容创作领域的基础设施。无论你是设计师、营销人员、开发者还是普通爱好者，掌握 AI 绘画都将成为一项越来越重要的数字技能。在下一节中，我们将深入探索各大主流平台的详细功能、操作方法和最佳实践。

下一步：在下一节中，我们将深入了解主流平台的详细对比和实战指南。

← 返回章节目录 | 继续学习：主流平台详解 →

AI 绘画概述 ​

什么是 AI 绘画？ ​

基本定义 ​

三大技术路径 ​

与人类创作的区别 ​

技术发展历程 ​

萌芽期（2015—2020）：风格迁移与实验探索 ​

爆发期（2021—2022）：文生图进入公众视野 ​

成熟期（2023—2024）：商业级质量与可控性 ​

普及期（2025—2026）：高质量、版权安全、行业融合 ​

四阶段对比总览 ​

2026 年行业格局 ​

市场规模 ​

六大主流平台对比 ​

中国市场亮点 ​

AI 绘画的核心能力边界 ​

能做什么 ​

暂时不能 ​

需要警惕 ​

与 AI 视频生成的对比 ​

技术差异 ​

工具生态关系 ​

协同工作流 ​

本章小结 ​

AI 绘画概述

什么是 AI 绘画？

基本定义

三大技术路径

与人类创作的区别

技术发展历程

萌芽期（2015—2020）：风格迁移与实验探索

爆发期（2021—2022）：文生图进入公众视野

成熟期（2023—2024）：商业级质量与可控性

普及期（2025—2026）：高质量、版权安全、行业融合

四阶段对比总览

2026 年行业格局

市场规模

六大主流平台对比

中国市场亮点

AI 绘画的核心能力边界

能做什么

暂时不能

需要警惕

与 AI 视频生成的对比

技术差异

工具生态关系

协同工作流

本章小结