Newsroom
AIEII

Midjourney v7 深度体验:当 AI 绘画进入「导演模式」

Midjourney v7 全面评测:导演模式、视频生成、风格迁移、多角色一致性。和 DALL-E 4、Ideogram 3 的对比,附实用提示词技巧。

2026年03月27日

Midjourney v7 深度体验:当 AI 绘画进入「导演模式」

以前用 Midjourney,是"打一行字,等一张图"。

你写一句 prompt,点回车,然后盯着进度条看。出来的图不满意?改几个词,再来一次。这种工作方式延续了三年,从 v4 到 v6,底层逻辑没变过。

Midjourney v7 改变了这个逻辑。

这次更新不只是"画得更好",而是从交互方式上做了一次重构。你不再是写了一句话然后被动等结果的"许愿者",你变成了一个可以实时调度画面元素的"导演"。

这是 AI 绘画领域近两年来最大的体验变化。


导演模式:实时操控画面

Director Mode 是 v7 最核心的新功能。

以前的 AI 绘画是这样的:你写 prompt,模型理解,出图。如果构图不对、光线偏了、角度不满意,你只能改 prompt 重新生成,赌下一次运气更好。

现在的导演模式像一个交互式画布。生成初始图之后,你可以:

  • 拖动主体位置:把人物从画面中央拖到三分之一处
  • 调节光线方向:从正面光切换到侧逆光,实时看到阴影变化
  • 旋转视角:把俯视角调成平视,或者从正面转到 45 度侧面
  • 调整景深:把背景虚化程度从 f/2.8 拉到 f/8

不用重新生成,不用改 prompt。 你在画布上操作,模型实时响应。

实测下来,每次调整的响应时间大约在 2-4 秒。不算瞬时,但比重新生成一张图(通常 15-30 秒)快了太多。对于需要精细调整构图的场景,这个功能省下的时间是指数级的。

有个细节值得注意:导演模式不是"P 图"。它不是在已有的图上做后期处理,而是根据你的调整重新做一次局部推理。所以光线变化时,物体表面的反射、阴影投射、环境光照都会跟着变。这和在 Photoshop 里调亮度本质上不同。


视频生成:从一张图到 10 秒钟

Midjourney 终于做视频了。

v7 支持从任何生成的静态图出发,扩展为一段 5-10 秒的短视频。分辨率最高 1080p,帧率 24fps。

实测效果如何?

我用 v7 生成了一张赛博朋克风格的城市夜景,然后选择"Animate"。出来的视频是一个缓慢的城市俯瞰镜头,霓虹灯在闪烁,飞行器从远处飞过。光影过渡自然,没有明显的闪烁或扭曲。

坦白说,这个质量放在一年前是顶级水平。 但放在 2026 年 3 月,和 Runway Gen-4、Kling 2.0、Sora 的最新版本比,还有差距。

具体差在哪:

  1. 运动幅度有限:目前只支持镜头运动(平移、推拉、旋转),不支持画面内主体的复杂动作。你可以让镜头慢慢推进一个街景,但不能让街上的人跑起来。
  2. 时长偏短:最长 10 秒,而 Runway 和 Kling 都已经支持 30 秒以上的连贯视频。
  3. 风格受限:视频风格和原图强绑定,你没法在动画过程中变换画风。

但 Midjourney 的视频有一个独特优势:起始帧质量极高。因为它是从 MJ 生成的图出发的,而 MJ 的静态图质量在业内一直是第一梯队。很多竞品的视频工具,第一帧就已经糊了。

适用场景:社交媒体封面动画、产品概念展示、艺术项目的动态海报。不适合做叙事性内容或需要人物动作的视频。


多角色一致性:同一个角色,不同的场景

这是 v7 解决的一个老大难问题。

以前用 AI 绘画做连续叙事(比如绘本、漫画、品牌视觉),最头疼的是角色一致性。你画了一个红发女孩在咖啡店,下一张画她在海边,脸型、发型、体态全变了。这不是同一个人,这是两个长得有点像的人。

v7 的解决方案是 Character Lock

用法:先生成一个角色的"标准照",然后在后续 prompt 中用 --cref 参数引用这个角色。模型会在新场景中尽量保持角色的面部特征、体型比例、服装细节。

实测准确度如何?

我做了一组测试:创建一个戴黑框眼镜、穿灰色卫衣的亚洲男性角色,然后分别放进 5 个不同场景:

  1. 在办公室写代码(室内,冷色光)
  2. 在公园长椅上看书(户外,暖色光)
  3. 在超市推购物车(室内,日光灯)
  4. 在雨天撑伞走路(户外,灰色调)
  5. 在舞台上演讲(聚光灯,高对比)

结果:5 张图里,面部特征保持率大约 85-90%。眼镜和卫衣在所有场景中都在。面部的整体气质一致,但某些角度(特别是侧脸和仰视角)会有细微变化。

和之前版本比,这已经是巨大进步。v6 的角色一致性大概只有 50-60%,经常换脸。

限制:目前 Character Lock 一次只能锁定一个角色。如果你要在同一场景里放两个一致角色(比如情侣、双胞胎),需要分别生成再手动合成,或者用导演模式一个一个摆。


风格迁移 2.0:精确到"那种感觉"

v6 时代的风格迁移是用 --sref 参数,上传一张参考图,让模型模仿它的整体风格。

效果说实话一般。模型能捕捉到大致的色调和氛围,但细节上经常跑偏。你上传一张吉卜力风格的参考图,出来的可能是"迪士尼风格混吉卜力调色"。

v7 的风格迁移 2.0 做了两个关键改进。

第一,风格拆分。 现在你可以选择只迁移参考图的某些维度:

  • --sref:color 只迁移色彩方案
  • --sref:texture 只迁移材质和笔触
  • --sref:composition 只迁移构图方式
  • --sref:lighting 只迁移光线风格

不用再被迫全盘接受。你可以用一张赛博朋克图的色彩,配上油画的材质,加上电影海报的构图。

第二,多参考混合。 你可以同时上传最多 4 张参考图,分别指定它们的影响权重。

比如:

/imagine a warrior standing on a cliff --sref image1::2 image2::1 --sref:color image1 --sref:texture image2

这段的意思是:用 image1 的色彩和 2 倍影响力,用 image2 的材质和 1 倍影响力。

实测效果:我用宫崎骏的画面截图做色彩参考,用莫奈的《日出印象》做笔触参考,生成了一组东京街景。出来的效果让我相当满意,既有吉卜力那种干净温暖的色调,又有印象派那种松散朦胧的笔触。这种精确度在 v6 时代是做不到的。


实测案例:五个场景的生成效果

说了这么多功能,来看看实际生成效果。

案例 1:建筑摄影

Prompt: A brutalist concrete museum in the desert, golden hour, long shadows, shot on Hasselblad X2D

v7 vs v6 对比:v7 的光影层次明显更丰富。混凝土表面的纹理不再是"生成感"很强的均匀灰色,而是有风化痕迹、有水渍、有不同批次混凝土的微妙色差。金色时刻的光线不只是给画面加了一层暖色滤镜,而是真的从一个方向射入,在建筑的棱角处形成了明确的明暗交界线。

评分:9/10。这是 v7 最强的场景之一。建筑和风景摄影风格的出图质量已经接近高端摄影后期处理的水准。

案例 2:人像特写

Prompt: Korean woman in her 30s, natural makeup, sitting by a window in a cafe, film grain, Fujifilm Superia 400 color palette

效果:人物的皮肤质感有明显进步,不再是 v6 那种"过度磨皮"的塑料感。毛孔、细微的皮肤纹理都能看到。胶片颗粒的模拟也比较到位,色彩还原了 Superia 400 那种偏绿偏暖的调子。

但有个问题:手部细节虽然比以前好了很多(终于不会 6 根手指了),在某些复杂姿势下还是会出现不自然的弯曲。这似乎是所有 AI 绘画模型都还没完全解决的问题。

评分:8/10。人像方面进步显著,但手部和复杂交互(比如拿杯子、翻书页)偶尔还会翻车。

案例 3:概念设计

Prompt: Biomechanical insect robot, iridescent exoskeleton, detailed mechanical joints, studio lighting, 4K product render

效果:这类概念设计/产品渲染是 Midjourney 一直以来的强项。v7 的细节密度更高了,机械关节的铰链、螺丝、液压管路都清晰可见。虹彩外壳的反光效果非常真实,不同角度显示不同颜色。

评分:9.5/10。概念设计和产品渲染依然是 MJ 的舒适区,v7 把上限又拉高了一截。

案例 4:文字渲染

Prompt: A neon sign that reads “OPEN 24/7” on a rainy Tokyo street at night

效果:这一直是 MJ 的弱项。v7 有改善,简短的英文文字(3-5 个单词)基本能准确渲染。“OPEN 24/7"这种简单内容没问题。但长句子和中文字体仍然不靠谱,经常出现乱码或笔画错误。

评分:6.5/10。有进步,但和 DALL-E 4、Ideogram 3 在文字渲染方面的差距还是明显的。

案例 5:多角色叙事

Prompt: 用 Character Lock 创建两个角色,分别生成 3 个场景的连续叙事

效果:主角色的一致性不错(如前面测试,85-90%)。但当两个角色同时出现在画面中时,偶尔会出现特征"串味"的情况,比如 A 角色的发色飘到了 B 角色上。

评分:7.5/10。单角色一致性可用,双角色同框还需要打磨。


v7 提示词技巧:新参数和写法

v7 引入了一批新参数,也改变了一些 prompt 的最佳实践。

新参数速查

参数功能示例
--director开启导演模式加在任何 prompt 末尾
--animate从静态图生成视频--animate 10s (指定时长)
--cref [URL]角色参考(一致性锁定)--cref https://...
--sref:color仅迁移色彩风格--sref:color [URL]
--sref:texture仅迁移材质笔触--sref:texture [URL]
--sref:composition仅迁移构图方式--sref:composition [URL]
--cw [0-100]角色权重(控制一致性强度)--cw 80(默认 100)
--sv [1-4]风格变化度(1 最保守,4 最自由)--sv 2

Prompt 写作新思路

v7 的理解能力提升后,一些以前的"hack"不再需要了。

以前的写法(v5-v6 时代):

beautiful young woman, long flowing hair, detailed eyes,
perfect lighting, professional photography, 8k, ultra HD,
masterpiece, best quality

这种堆砌"质量词"的方式在 v7 里几乎没用了。模型默认就输出高质量图片,“8k"“masterpiece"“best quality"这类词不会让画质更好,反而可能让构图变得死板。

现在的写法(v7 推荐):

A woman reading in a sunlit bookstore, afternoon light
through tall windows, dust particles in the air,
shot on Leica M11, Kodak Portra 400

关键变化:

  1. 描述场景,不描述质量。把精力放在画面内容、光线条件、环境氛围上。
  2. 用相机和胶片型号替代抽象质量词shot on Hasselblad8k ultra HD有效得多,因为模型理解不同相机的成像特征。
  3. 减少形容词,增加名词和动词。“dust particles in the air"比"dreamy atmospheric lighting"产生更精确的效果。
  4. 用负面提示更精准--no blur, overexposed, plastic skin--no ugly, bad quality有效。

几个实用技巧

技巧一:用"镜头语言"控制构图。

不要说"从上面看”,说"bird’s eye view, 90-degree overhead shot”。不要说"远景”,说"establishing shot, wide angle 24mm”。模型对摄影术语的理解远比对日常描述更精确。

技巧二:给模型一个"拍摄场景”。

BTS photo from a movie set, actress sitting in a
1960s diner, Panavision camera visible in the
background, cinematic lighting rig overhead

这种"元场景"描述会让模型同时模拟电影布光和高端摄影的品质,效果往往比直接描述最终画面更好。

技巧三:风格迁移 + 导演模式组合。

先用风格迁移生成一张基础图,确定整体风格和色调。然后进入导演模式微调构图和光线。这样你既能精确控制风格,又能精确控制画面。这是 v7 独有的工作流,以前做不到。


竞品对比:v7 的位置在哪?

AI 绘画的竞争在 2026 年变得非常激烈。来看看 v7 和主要竞品的对比。

vs DALL-E 4

DALL-E 4 的强项

  • 文字渲染:这是 DALL-E 4 最大的优势。不管是英文还是中文,不管是长句还是复杂排版,DALL-E 4 的准确率远超所有竞品。如果你的需求涉及海报设计、LOGO、有文字内容的图片,DALL-E 4 是第一选择。
  • 指令遵循:DALL-E 4 对复杂 prompt 的理解和执行准确度更高。你说"左边放一只猫,右边放一只狗,中间是一棵树",它真的会严格按这个布局来。MJ 可能会做出"更好看"的图,但未必是你描述的那个布局。
  • 安全一致:OpenAI 在内容审核上非常严格,这意味着 DALL-E 4 几乎不会输出让人不适的内容。对于商业用途,这是优点。

DALL-E 4 的弱项

  • 创意感和氛围感不如 MJ。DALL-E 4 的图像偏"工整",MJ 的图像偏"有感觉"。打个比方,DALL-E 4 像一个技术精湛但个性不鲜明的摄影师,MJ 像一个有强烈个人风格的艺术总监。
  • 细节丰富度略逊。同样是一个赛博朋克街景,MJ v7 的细节层次(反光、雾气、霓虹溢出光)明显比 DALL-E 4 丰富。
  • 没有导演模式。DALL-E 4 的编辑功能限于局部重绘和文字修改,不能像 MJ v7 那样实时调整构图和光线。

结论:需要精确执行(文字、布局、商业设计)选 DALL-E 4。追求视觉冲击力和艺术感选 MJ v7。两者互补而非替代。

vs Ideogram 3

Ideogram 3 的强项

  • 平面设计:Ideogram 从第一天起就把平面设计作为核心场景。海报、名片、社交媒体封面、品牌 VI,它的设计感和排版能力在所有 AI 绘画工具里最强。
  • 文字渲染:和 DALL-E 4 水平接近,远超 MJ。
  • 色彩搭配:Ideogram 似乎内置了更强的色彩理论知识,生成的配色方案专业度很高。
  • Canvas 编辑:Ideogram 的在线编辑器支持图层操作,对设计师友好。

Ideogram 3 的弱项

  • 摄影真实感不如 MJ v7。Ideogram 的图像偏"设计风",缺少 MJ 那种"照片级"的真实感。建筑摄影、人像摄影、风景摄影这类需要真实质感的场景,MJ 明显更强。
  • 概念艺术和幻想场景不如 MJ。科幻、奇幻、超现实这类需要"想象力"的场景,MJ 的训练数据和模型偏好更占优势。
  • 没有视频功能。Ideogram 目前还是纯静态图工具。
  • 没有导演模式。调整同样依赖修改 prompt 重新生成。

结论:做平面设计、品牌物料、有文字内容的图选 Ideogram 3。做摄影、概念艺术、视频素材选 MJ v7。

vs Stable Diffusion 3.5

SD 3.5 的强项

  • 完全开源可控:可以在本地运行,数据不出你的电脑。对于涉及敏感内容、商业机密的场景,这是硬需求。
  • 无限定制:LoRA 微调、ControlNet 精确控制、ComfyUI 可视化工作流。你想怎么调就怎么调,没有任何限制。
  • 无审核限制:没有内容审核系统,你可以生成任何内容。这是双刃剑。
  • 成本可控:除了初始硬件投入,没有按量收费。大批量出图时成本优势明显。

SD 3.5 的弱项

  • 上手门槛高:安装配置、显卡驱动、Python 环境、模型下载、参数调试…普通用户可能在第一步就放弃了。即使用了 ComfyUI 这样的可视化界面,学习曲线也比 MJ 的 Discord 命令陡得多。
  • 默认出图质量不如 MJ v7。不经过微调和仔细参数调整,SD 3.5 的默认输出比 MJ 差一个档次。但经过精心调教后可以追平甚至超越。
  • 硬件要求:至少需要 12GB 显存才能流畅运行基础模型,想用高分辨率或复杂工作流需要 24GB+。这排除了很多用户。

结论:有技术能力、有硬件、需要深度定制选 SD 3.5。追求开箱即用、“打字出大片"选 MJ v7。

横向对比总结

维度MJ v7DALL-E 4Ideogram 3SD 3.5
摄影真实感★★★★★★★★★★★★★★★★
概念艺术★★★★★★★★★★★★★★★★★
文字渲染★★★★★★★★★★★★★★★★
平面设计★★★★★★★★★★★★★★★
视频生成★★★★★-★★
实时编辑★★★★★★★★★★★★★★
上手难度
定制深度极高
费用$$$$$$$硬件一次性

定价变化:按量计费来了

v7 发布的同时,Midjourney 调整了定价模型。

以前的方案(v6 时代):

套餐月费快速生成时间
Basic$103.3 小时
Standard$3015 小时
Pro$6030 小时
Mega$12060 小时

这个"按时间计费"的模式被很多人吐槽。不同复杂度的 prompt 消耗时间差异巨大,你根本无法预估一个月会用多少。

v7 的新方案

保留了原有的月费套餐,但新增了 Credit 按量计费 选项:

  • 每张标准图消耗 1 Credit
  • 导演模式每次调整消耗 0.3 Credit
  • 视频生成消耗 5-10 Credit(取决于时长和分辨率)
  • 风格迁移 2.0消耗 1.5 Credit
  • Character Lock首次创建消耗 2 Credit,后续引用免费

Credit 可以按需购买:

Credit 包价格单价
100 Credits$10$0.10/张
500 Credits$40$0.08/张
2000 Credits$120$0.06/张

对比月费方案:如果你每月只生成 50-100 张图,按量计费比最低的 Basic 套餐更划算。但如果你是重度用户(每月 500 张+),月费套餐的性价比更高。

我的建议:先用 Credit 按量计费试用 v7 的新功能。确认自己的使用量后,再决定是否切换到月费套餐。导演模式和视频生成会显著增加你的使用量,因为你会不自觉地多调整几次。


适合谁用?

说了这么多,v7 到底适合谁?

设计师和视觉创作者

v7 的导演模式和风格迁移 2.0 是给你们准备的。

工作流建议:用风格迁移确定视觉调性 → 用 prompt 生成初始图 → 进入导演模式精调构图/光线 → 导出高分辨率图 → 在 Photoshop/Figma 中做最终合成。

这个流程比以前"生成 20 张挑 1 张"的方式高效太多了。导演模式让你可以把 MJ 当成一个有 AI 加持的创意画板来用,而不是一台"投币出图"的自动贩卖机。

特别适合:概念设计、Mood Board 制作、广告创意提案、品牌视觉方向探索。

内容创作者和自媒体

用 v7 解决什么问题:文章配图、社交媒体视觉、短视频封面、品牌一致性。

Character Lock 对你们来说是刚需。如果你的账号有一个虚拟形象(IP),v7 能让这个形象在不同场景下保持一致。以前要做到这点,要么花大价钱请画师画一整套素材,要么忍受每张图风格不统一的尴尬。

视频生成也有用:10 秒的循环动画做成社交媒体封面或者 Story 背景,比静态图的停留时间长 3-5 倍。

产品经理和创业者

用 v7 做什么:产品概念图、用户场景模拟、投资人演示材料、App 原型视觉参考。

以前你要描述"我想做一个这样的 App”,只能画线框图或者找相似产品截图。现在你可以用 MJ v7 直接生成"你想象中的成品界面",带光影、带材质、带氛围。

一个真实案例:我用 v7 为一个智能家居 App 的 pitch deck 生成了一组场景图。投资人的反应是"你们已经做出来了?"

当然不是。但这就是好的概念图的力量。

不太适合谁?

  • 需要精确文字内容的设计:选 DALL-E 4 或 Ideogram 3
  • 需要大批量统一风格出图的商业用途:选 SD 3.5 + 自定义 LoRA
  • 需要长视频内容的视频创作者:选 Runway Gen-4 或 Kling 2.0
  • 预算极紧的个人用户:SD 3.5 本地部署的长期成本更低

最后说几句

Midjourney v7 的"导演模式"不只是一个功能更新。它改变了人和 AI 绘画工具之间的关系。

以前的模式是:人类写需求 → AI 执行 → 人类验收 → 不满意就重来。这和传统的外包流程没什么区别。

导演模式的逻辑是:人类和 AI 同时在场。你给一个方向,AI 给出初步方案,你在方案上实时调整,AI 实时响应。这更像两个人一起画画,而不是一个人给另一个人下指令。

这个交互范式会扩散到更多 AI 工具中。 文本生成、代码编写、音乐创作,未来可能都会出现类似的"导演模式"。不是你打一段话等结果,而是你和 AI 实时共同创作。

就像电影从默片进化到有声片,改变的不只是技术,还有整个创作语言。

AI 绘画从"打字等图"到"实时导演",改变的也不只是效率,还有创作者和工具之间的关系。

v7 是这个转变的第一步。不完美,但方向对了。

本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← 2026 AI 翻译工具大横评 … 零成本搭建 AI API:Cloudflare … →
💬 Comments
15 min read