Midjourney v7 深度体验：当 AI 绘画进入「导演模式」

AIEII

以前用 Midjourney，是"打一行字，等一张图"。

你写一句 prompt，点回车，然后盯着进度条看。出来的图不满意？改几个词，再来一次。这种工作方式延续了三年，从 v4 到 v6，底层逻辑没变过。

Midjourney v7 改变了这个逻辑。

这次更新不只是"画得更好"，而是从交互方式上做了一次重构。你不再是写了一句话然后被动等结果的"许愿者"，你变成了一个可以实时调度画面元素的"导演"。

这是 AI 绘画领域近两年来最大的体验变化。

导演模式：实时操控画面

Director Mode 是 v7 最核心的新功能。

以前的 AI 绘画是这样的：你写 prompt，模型理解，出图。如果构图不对、光线偏了、角度不满意，你只能改 prompt 重新生成，赌下一次运气更好。

现在的导演模式像一个交互式画布。生成初始图之后，你可以：

拖动主体位置：把人物从画面中央拖到三分之一处
调节光线方向：从正面光切换到侧逆光，实时看到阴影变化
旋转视角：把俯视角调成平视，或者从正面转到 45 度侧面
调整景深：把背景虚化程度从 f/2.8 拉到 f/8

不用重新生成，不用改 prompt。 你在画布上操作，模型实时响应。

实测下来，每次调整的响应时间大约在 2-4 秒。不算瞬时，但比重新生成一张图（通常 15-30 秒）快了太多。对于需要精细调整构图的场景，这个功能省下的时间是指数级的。

有个细节值得注意：导演模式不是"P 图"。它不是在已有的图上做后期处理，而是根据你的调整重新做一次局部推理。所以光线变化时，物体表面的反射、阴影投射、环境光照都会跟着变。这和在 Photoshop 里调亮度本质上不同。

视频生成：从一张图到 10 秒钟

Midjourney 终于做视频了。

v7 支持从任何生成的静态图出发，扩展为一段 5-10 秒的短视频。分辨率最高 1080p，帧率 24fps。

实测效果如何？

我用 v7 生成了一张赛博朋克风格的城市夜景，然后选择"Animate"。出来的视频是一个缓慢的城市俯瞰镜头，霓虹灯在闪烁，飞行器从远处飞过。光影过渡自然，没有明显的闪烁或扭曲。

坦白说，这个质量放在一年前是顶级水平。 但放在 2026 年 3 月，和 Runway Gen-4、Kling 2.0、Sora 的最新版本比，还有差距。

具体差在哪：

运动幅度有限：目前只支持镜头运动（平移、推拉、旋转），不支持画面内主体的复杂动作。你可以让镜头慢慢推进一个街景，但不能让街上的人跑起来。
时长偏短：最长 10 秒，而 Runway 和 Kling 都已经支持 30 秒以上的连贯视频。
风格受限：视频风格和原图强绑定，你没法在动画过程中变换画风。

但 Midjourney 的视频有一个独特优势：起始帧质量极高。因为它是从 MJ 生成的图出发的，而 MJ 的静态图质量在业内一直是第一梯队。很多竞品的视频工具，第一帧就已经糊了。

适用场景：社交媒体封面动画、产品概念展示、艺术项目的动态海报。不适合做叙事性内容或需要人物动作的视频。

多角色一致性：同一个角色，不同的场景

这是 v7 解决的一个老大难问题。

以前用 AI 绘画做连续叙事（比如绘本、漫画、品牌视觉），最头疼的是角色一致性。你画了一个红发女孩在咖啡店，下一张画她在海边，脸型、发型、体态全变了。这不是同一个人，这是两个长得有点像的人。

v7 的解决方案是 Character Lock。

用法：先生成一个角色的"标准照"，然后在后续 prompt 中用 --cref 参数引用这个角色。模型会在新场景中尽量保持角色的面部特征、体型比例、服装细节。

实测准确度如何？

我做了一组测试：创建一个戴黑框眼镜、穿灰色卫衣的亚洲男性角色，然后分别放进 5 个不同场景：

在办公室写代码（室内，冷色光）
在公园长椅上看书（户外，暖色光）
在超市推购物车（室内，日光灯）
在雨天撑伞走路（户外，灰色调）
在舞台上演讲（聚光灯，高对比）

结果：5 张图里，面部特征保持率大约 85-90%。眼镜和卫衣在所有场景中都在。面部的整体气质一致，但某些角度（特别是侧脸和仰视角）会有细微变化。

和之前版本比，这已经是巨大进步。v6 的角色一致性大概只有 50-60%，经常换脸。

限制：目前 Character Lock 一次只能锁定一个角色。如果你要在同一场景里放两个一致角色（比如情侣、双胞胎），需要分别生成再手动合成，或者用导演模式一个一个摆。

风格迁移 2.0：精确到"那种感觉"

v6 时代的风格迁移是用 --sref 参数，上传一张参考图，让模型模仿它的整体风格。

效果说实话一般。模型能捕捉到大致的色调和氛围，但细节上经常跑偏。你上传一张吉卜力风格的参考图，出来的可能是"迪士尼风格混吉卜力调色"。

v7 的风格迁移 2.0 做了两个关键改进。

第一，风格拆分。 现在你可以选择只迁移参考图的某些维度：

--sref:color 只迁移色彩方案
--sref:texture 只迁移材质和笔触
--sref:composition 只迁移构图方式
--sref:lighting 只迁移光线风格

不用再被迫全盘接受。你可以用一张赛博朋克图的色彩，配上油画的材质，加上电影海报的构图。

第二，多参考混合。 你可以同时上传最多 4 张参考图，分别指定它们的影响权重。

比如：

/imagine a warrior standing on a cliff --sref image1::2 image2::1 --sref:color image1 --sref:texture image2

这段的意思是：用 image1 的色彩和 2 倍影响力，用 image2 的材质和 1 倍影响力。

实测效果：我用宫崎骏的画面截图做色彩参考，用莫奈的《日出印象》做笔触参考，生成了一组东京街景。出来的效果让我相当满意，既有吉卜力那种干净温暖的色调，又有印象派那种松散朦胧的笔触。这种精确度在 v6 时代是做不到的。

实测案例：五个场景的生成效果

说了这么多功能，来看看实际生成效果。

案例 1：建筑摄影

Prompt: A brutalist concrete museum in the desert, golden hour, long shadows, shot on Hasselblad X2D

v7 vs v6 对比：v7 的光影层次明显更丰富。混凝土表面的纹理不再是"生成感"很强的均匀灰色，而是有风化痕迹、有水渍、有不同批次混凝土的微妙色差。金色时刻的光线不只是给画面加了一层暖色滤镜，而是真的从一个方向射入，在建筑的棱角处形成了明确的明暗交界线。

评分：9/10。这是 v7 最强的场景之一。建筑和风景摄影风格的出图质量已经接近高端摄影后期处理的水准。

案例 2：人像特写

Prompt: Korean woman in her 30s, natural makeup, sitting by a window in a cafe, film grain, Fujifilm Superia 400 color palette

效果：人物的皮肤质感有明显进步，不再是 v6 那种"过度磨皮"的塑料感。毛孔、细微的皮肤纹理都能看到。胶片颗粒的模拟也比较到位，色彩还原了 Superia 400 那种偏绿偏暖的调子。

但有个问题：手部细节虽然比以前好了很多（终于不会 6 根手指了），在某些复杂姿势下还是会出现不自然的弯曲。这似乎是所有 AI 绘画模型都还没完全解决的问题。

评分：8/10。人像方面进步显著，但手部和复杂交互（比如拿杯子、翻书页）偶尔还会翻车。

案例 3：概念设计

Prompt: Biomechanical insect robot, iridescent exoskeleton, detailed mechanical joints, studio lighting, 4K product render

效果：这类概念设计/产品渲染是 Midjourney 一直以来的强项。v7 的细节密度更高了，机械关节的铰链、螺丝、液压管路都清晰可见。虹彩外壳的反光效果非常真实，不同角度显示不同颜色。

评分：9.5/10。概念设计和产品渲染依然是 MJ 的舒适区，v7 把上限又拉高了一截。

案例 4：文字渲染

Prompt: A neon sign that reads “OPEN 24/7” on a rainy Tokyo street at night

效果：这一直是 MJ 的弱项。v7 有改善，简短的英文文字（3-5 个单词）基本能准确渲染。“OPEN 24/7"这种简单内容没问题。但长句子和中文字体仍然不靠谱，经常出现乱码或笔画错误。

评分：6.5/10。有进步，但和 DALL-E 4、Ideogram 3 在文字渲染方面的差距还是明显的。

案例 5：多角色叙事

Prompt: 用 Character Lock 创建两个角色，分别生成 3 个场景的连续叙事

效果：主角色的一致性不错（如前面测试，85-90%）。但当两个角色同时出现在画面中时，偶尔会出现特征"串味"的情况，比如 A 角色的发色飘到了 B 角色上。

评分：7.5/10。单角色一致性可用，双角色同框还需要打磨。

v7 提示词技巧：新参数和写法

v7 引入了一批新参数，也改变了一些 prompt 的最佳实践。

新参数速查

参数	功能	示例
`--director`	开启导演模式	加在任何 prompt 末尾
`--animate`	从静态图生成视频	`--animate 10s` (指定时长)
`--cref [URL]`	角色参考（一致性锁定）	`--cref https://...`
`--sref:color`	仅迁移色彩风格	`--sref:color [URL]`
`--sref:texture`	仅迁移材质笔触	`--sref:texture [URL]`
`--sref:composition`	仅迁移构图方式	`--sref:composition [URL]`
`--cw [0-100]`	角色权重（控制一致性强度）	`--cw 80`（默认 100）
`--sv [1-4]`	风格变化度（1 最保守，4 最自由）	`--sv 2`

Prompt 写作新思路

v7 的理解能力提升后，一些以前的"hack"不再需要了。

以前的写法（v5-v6 时代）：

beautiful young woman, long flowing hair, detailed eyes,
perfect lighting, professional photography, 8k, ultra HD,
masterpiece, best quality

这种堆砌"质量词"的方式在 v7 里几乎没用了。模型默认就输出高质量图片，“8k"“masterpiece"“best quality"这类词不会让画质更好，反而可能让构图变得死板。

现在的写法（v7 推荐）：

A woman reading in a sunlit bookstore, afternoon light
through tall windows, dust particles in the air,
shot on Leica M11, Kodak Portra 400

关键变化：

描述场景，不描述质量。把精力放在画面内容、光线条件、环境氛围上。
用相机和胶片型号替代抽象质量词。shot on Hasselblad比8k ultra HD有效得多，因为模型理解不同相机的成像特征。
减少形容词，增加名词和动词。“dust particles in the air"比"dreamy atmospheric lighting"产生更精确的效果。
用负面提示更精准。--no blur, overexposed, plastic skin比--no ugly, bad quality有效。

几个实用技巧

技巧一：用"镜头语言"控制构图。

不要说"从上面看”，说"bird’s eye view, 90-degree overhead shot”。不要说"远景”，说"establishing shot, wide angle 24mm”。模型对摄影术语的理解远比对日常描述更精确。

技巧二：给模型一个"拍摄场景”。

BTS photo from a movie set, actress sitting in a
1960s diner, Panavision camera visible in the
background, cinematic lighting rig overhead

这种"元场景"描述会让模型同时模拟电影布光和高端摄影的品质，效果往往比直接描述最终画面更好。

技巧三：风格迁移 + 导演模式组合。

先用风格迁移生成一张基础图，确定整体风格和色调。然后进入导演模式微调构图和光线。这样你既能精确控制风格，又能精确控制画面。这是 v7 独有的工作流，以前做不到。

竞品对比：v7 的位置在哪？

AI 绘画的竞争在 2026 年变得非常激烈。来看看 v7 和主要竞品的对比。

vs DALL-E 4

DALL-E 4 的强项：

文字渲染：这是 DALL-E 4 最大的优势。不管是英文还是中文，不管是长句还是复杂排版，DALL-E 4 的准确率远超所有竞品。如果你的需求涉及海报设计、LOGO、有文字内容的图片，DALL-E 4 是第一选择。
指令遵循：DALL-E 4 对复杂 prompt 的理解和执行准确度更高。你说"左边放一只猫，右边放一只狗，中间是一棵树"，它真的会严格按这个布局来。MJ 可能会做出"更好看"的图，但未必是你描述的那个布局。
安全一致：OpenAI 在内容审核上非常严格，这意味着 DALL-E 4 几乎不会输出让人不适的内容。对于商业用途，这是优点。

DALL-E 4 的弱项：

创意感和氛围感不如 MJ。DALL-E 4 的图像偏"工整"，MJ 的图像偏"有感觉"。打个比方，DALL-E 4 像一个技术精湛但个性不鲜明的摄影师，MJ 像一个有强烈个人风格的艺术总监。
细节丰富度略逊。同样是一个赛博朋克街景，MJ v7 的细节层次（反光、雾气、霓虹溢出光）明显比 DALL-E 4 丰富。
没有导演模式。DALL-E 4 的编辑功能限于局部重绘和文字修改，不能像 MJ v7 那样实时调整构图和光线。

结论：需要精确执行（文字、布局、商业设计）选 DALL-E 4。追求视觉冲击力和艺术感选 MJ v7。两者互补而非替代。

vs Ideogram 3

Ideogram 3 的强项：

平面设计：Ideogram 从第一天起就把平面设计作为核心场景。海报、名片、社交媒体封面、品牌 VI，它的设计感和排版能力在所有 AI 绘画工具里最强。
文字渲染：和 DALL-E 4 水平接近，远超 MJ。
色彩搭配：Ideogram 似乎内置了更强的色彩理论知识，生成的配色方案专业度很高。
Canvas 编辑：Ideogram 的在线编辑器支持图层操作，对设计师友好。

Ideogram 3 的弱项：

摄影真实感不如 MJ v7。Ideogram 的图像偏"设计风"，缺少 MJ 那种"照片级"的真实感。建筑摄影、人像摄影、风景摄影这类需要真实质感的场景，MJ 明显更强。
概念艺术和幻想场景不如 MJ。科幻、奇幻、超现实这类需要"想象力"的场景，MJ 的训练数据和模型偏好更占优势。
没有视频功能。Ideogram 目前还是纯静态图工具。
没有导演模式。调整同样依赖修改 prompt 重新生成。

结论：做平面设计、品牌物料、有文字内容的图选 Ideogram 3。做摄影、概念艺术、视频素材选 MJ v7。

vs Stable Diffusion 3.5

SD 3.5 的强项：

完全开源可控：可以在本地运行，数据不出你的电脑。对于涉及敏感内容、商业机密的场景，这是硬需求。
无限定制：LoRA 微调、ControlNet 精确控制、ComfyUI 可视化工作流。你想怎么调就怎么调，没有任何限制。
无审核限制：没有内容审核系统，你可以生成任何内容。这是双刃剑。
成本可控：除了初始硬件投入，没有按量收费。大批量出图时成本优势明显。

SD 3.5 的弱项：

上手门槛高：安装配置、显卡驱动、Python 环境、模型下载、参数调试…普通用户可能在第一步就放弃了。即使用了 ComfyUI 这样的可视化界面，学习曲线也比 MJ 的 Discord 命令陡得多。
默认出图质量不如 MJ v7。不经过微调和仔细参数调整，SD 3.5 的默认输出比 MJ 差一个档次。但经过精心调教后可以追平甚至超越。
硬件要求：至少需要 12GB 显存才能流畅运行基础模型，想用高分辨率或复杂工作流需要 24GB+。这排除了很多用户。

结论：有技术能力、有硬件、需要深度定制选 SD 3.5。追求开箱即用、“打字出大片"选 MJ v7。

横向对比总结

维度	MJ v7	DALL-E 4	Ideogram 3	SD 3.5
摄影真实感	★★★★★	★★★★	★★★	★★★★
概念艺术	★★★★★	★★★★	★★★	★★★★★
文字渲染	★★★	★★★★★	★★★★★	★★★
平面设计	★★★	★★★★	★★★★★	★★★
视频生成	★★★	★★	-	★★
实时编辑	★★★★★	★★	★★★	★★★★
上手难度	低	低	低	高
定制深度	中	低	中	极高
费用	$$$	$$	$$	硬件一次性

定价变化：按量计费来了

v7 发布的同时，Midjourney 调整了定价模型。

以前的方案（v6 时代）：

套餐	月费	快速生成时间
Basic	$10	3.3 小时
Standard	$30	15 小时
Pro	$60	30 小时
Mega	$120	60 小时

这个"按时间计费"的模式被很多人吐槽。不同复杂度的 prompt 消耗时间差异巨大，你根本无法预估一个月会用多少。

v7 的新方案：

保留了原有的月费套餐，但新增了 Credit 按量计费 选项：

每张标准图消耗 1 Credit
导演模式每次调整消耗 0.3 Credit
视频生成消耗 5-10 Credit（取决于时长和分辨率）
风格迁移 2.0消耗 1.5 Credit
Character Lock首次创建消耗 2 Credit，后续引用免费

Credit 可以按需购买：

Credit 包	价格	单价
100 Credits	$10	$0.10/张
500 Credits	$40	$0.08/张
2000 Credits	$120	$0.06/张

对比月费方案：如果你每月只生成 50-100 张图，按量计费比最低的 Basic 套餐更划算。但如果你是重度用户（每月 500 张+），月费套餐的性价比更高。

我的建议：先用 Credit 按量计费试用 v7 的新功能。确认自己的使用量后，再决定是否切换到月费套餐。导演模式和视频生成会显著增加你的使用量，因为你会不自觉地多调整几次。

适合谁用？

说了这么多，v7 到底适合谁？

设计师和视觉创作者

v7 的导演模式和风格迁移 2.0 是给你们准备的。

工作流建议：用风格迁移确定视觉调性 → 用 prompt 生成初始图 → 进入导演模式精调构图/光线 → 导出高分辨率图 → 在 Photoshop/Figma 中做最终合成。

这个流程比以前"生成 20 张挑 1 张"的方式高效太多了。导演模式让你可以把 MJ 当成一个有 AI 加持的创意画板来用，而不是一台"投币出图"的自动贩卖机。

特别适合：概念设计、Mood Board 制作、广告创意提案、品牌视觉方向探索。

内容创作者和自媒体

用 v7 解决什么问题：文章配图、社交媒体视觉、短视频封面、品牌一致性。

Character Lock 对你们来说是刚需。如果你的账号有一个虚拟形象（IP），v7 能让这个形象在不同场景下保持一致。以前要做到这点，要么花大价钱请画师画一整套素材，要么忍受每张图风格不统一的尴尬。

视频生成也有用：10 秒的循环动画做成社交媒体封面或者 Story 背景，比静态图的停留时间长 3-5 倍。

产品经理和创业者

用 v7 做什么：产品概念图、用户场景模拟、投资人演示材料、App 原型视觉参考。

以前你要描述"我想做一个这样的 App”，只能画线框图或者找相似产品截图。现在你可以用 MJ v7 直接生成"你想象中的成品界面"，带光影、带材质、带氛围。

一个真实案例：我用 v7 为一个智能家居 App 的 pitch deck 生成了一组场景图。投资人的反应是"你们已经做出来了？"

当然不是。但这就是好的概念图的力量。

不太适合谁？

需要精确文字内容的设计：选 DALL-E 4 或 Ideogram 3
需要大批量统一风格出图的商业用途：选 SD 3.5 + 自定义 LoRA
需要长视频内容的视频创作者：选 Runway Gen-4 或 Kling 2.0
预算极紧的个人用户：SD 3.5 本地部署的长期成本更低

最后说几句

Midjourney v7 的"导演模式"不只是一个功能更新。它改变了人和 AI 绘画工具之间的关系。

以前的模式是：人类写需求 → AI 执行 → 人类验收 → 不满意就重来。这和传统的外包流程没什么区别。

导演模式的逻辑是：人类和 AI 同时在场。你给一个方向，AI 给出初步方案，你在方案上实时调整，AI 实时响应。这更像两个人一起画画，而不是一个人给另一个人下指令。

这个交互范式会扩散到更多 AI 工具中。 文本生成、代码编写、音乐创作，未来可能都会出现类似的"导演模式"。不是你打一段话等结果，而是你和 AI 实时共同创作。

就像电影从默片进化到有声片，改变的不只是技术，还有整个创作语言。

AI 绘画从"打字等图"到"实时导演"，改变的也不只是效率，还有创作者和工具之间的关系。

v7 是这个转变的第一步。不完美，但方向对了。

本文首发于 aieii.com，一个关注 AI 工具与趋势的中文内容平台。