以前用 Midjourney,是"打一行字,等一张图"。
你写一句 prompt,点回车,然后盯着进度条看。出来的图不满意?改几个词,再来一次。这种工作方式延续了三年,从 v4 到 v6,底层逻辑没变过。
Midjourney v7 改变了这个逻辑。
这次更新不只是"画得更好",而是从交互方式上做了一次重构。你不再是写了一句话然后被动等结果的"许愿者",你变成了一个可以实时调度画面元素的"导演"。
这是 AI 绘画领域近两年来最大的体验变化。
导演模式:实时操控画面
Director Mode 是 v7 最核心的新功能。
以前的 AI 绘画是这样的:你写 prompt,模型理解,出图。如果构图不对、光线偏了、角度不满意,你只能改 prompt 重新生成,赌下一次运气更好。
现在的导演模式像一个交互式画布。生成初始图之后,你可以:
- 拖动主体位置:把人物从画面中央拖到三分之一处
- 调节光线方向:从正面光切换到侧逆光,实时看到阴影变化
- 旋转视角:把俯视角调成平视,或者从正面转到 45 度侧面
- 调整景深:把背景虚化程度从 f/2.8 拉到 f/8
不用重新生成,不用改 prompt。 你在画布上操作,模型实时响应。
实测下来,每次调整的响应时间大约在 2-4 秒。不算瞬时,但比重新生成一张图(通常 15-30 秒)快了太多。对于需要精细调整构图的场景,这个功能省下的时间是指数级的。
有个细节值得注意:导演模式不是"P 图"。它不是在已有的图上做后期处理,而是根据你的调整重新做一次局部推理。所以光线变化时,物体表面的反射、阴影投射、环境光照都会跟着变。这和在 Photoshop 里调亮度本质上不同。
视频生成:从一张图到 10 秒钟
Midjourney 终于做视频了。
v7 支持从任何生成的静态图出发,扩展为一段 5-10 秒的短视频。分辨率最高 1080p,帧率 24fps。
实测效果如何?
我用 v7 生成了一张赛博朋克风格的城市夜景,然后选择"Animate"。出来的视频是一个缓慢的城市俯瞰镜头,霓虹灯在闪烁,飞行器从远处飞过。光影过渡自然,没有明显的闪烁或扭曲。
坦白说,这个质量放在一年前是顶级水平。 但放在 2026 年 3 月,和 Runway Gen-4、Kling 2.0、Sora 的最新版本比,还有差距。
具体差在哪:
- 运动幅度有限:目前只支持镜头运动(平移、推拉、旋转),不支持画面内主体的复杂动作。你可以让镜头慢慢推进一个街景,但不能让街上的人跑起来。
- 时长偏短:最长 10 秒,而 Runway 和 Kling 都已经支持 30 秒以上的连贯视频。
- 风格受限:视频风格和原图强绑定,你没法在动画过程中变换画风。
但 Midjourney 的视频有一个独特优势:起始帧质量极高。因为它是从 MJ 生成的图出发的,而 MJ 的静态图质量在业内一直是第一梯队。很多竞品的视频工具,第一帧就已经糊了。
适用场景:社交媒体封面动画、产品概念展示、艺术项目的动态海报。不适合做叙事性内容或需要人物动作的视频。
多角色一致性:同一个角色,不同的场景
这是 v7 解决的一个老大难问题。
以前用 AI 绘画做连续叙事(比如绘本、漫画、品牌视觉),最头疼的是角色一致性。你画了一个红发女孩在咖啡店,下一张画她在海边,脸型、发型、体态全变了。这不是同一个人,这是两个长得有点像的人。
v7 的解决方案是 Character Lock。
用法:先生成一个角色的"标准照",然后在后续 prompt 中用 --cref 参数引用这个角色。模型会在新场景中尽量保持角色的面部特征、体型比例、服装细节。
实测准确度如何?
我做了一组测试:创建一个戴黑框眼镜、穿灰色卫衣的亚洲男性角色,然后分别放进 5 个不同场景:
- 在办公室写代码(室内,冷色光)
- 在公园长椅上看书(户外,暖色光)
- 在超市推购物车(室内,日光灯)
- 在雨天撑伞走路(户外,灰色调)
- 在舞台上演讲(聚光灯,高对比)
结果:5 张图里,面部特征保持率大约 85-90%。眼镜和卫衣在所有场景中都在。面部的整体气质一致,但某些角度(特别是侧脸和仰视角)会有细微变化。
和之前版本比,这已经是巨大进步。v6 的角色一致性大概只有 50-60%,经常换脸。
限制:目前 Character Lock 一次只能锁定一个角色。如果你要在同一场景里放两个一致角色(比如情侣、双胞胎),需要分别生成再手动合成,或者用导演模式一个一个摆。
风格迁移 2.0:精确到"那种感觉"
v6 时代的风格迁移是用 --sref 参数,上传一张参考图,让模型模仿它的整体风格。
效果说实话一般。模型能捕捉到大致的色调和氛围,但细节上经常跑偏。你上传一张吉卜力风格的参考图,出来的可能是"迪士尼风格混吉卜力调色"。
v7 的风格迁移 2.0 做了两个关键改进。
第一,风格拆分。 现在你可以选择只迁移参考图的某些维度:
--sref:color只迁移色彩方案--sref:texture只迁移材质和笔触--sref:composition只迁移构图方式--sref:lighting只迁移光线风格
不用再被迫全盘接受。你可以用一张赛博朋克图的色彩,配上油画的材质,加上电影海报的构图。
第二,多参考混合。 你可以同时上传最多 4 张参考图,分别指定它们的影响权重。
比如:
/imagine a warrior standing on a cliff --sref image1::2 image2::1 --sref:color image1 --sref:texture image2
这段的意思是:用 image1 的色彩和 2 倍影响力,用 image2 的材质和 1 倍影响力。
实测效果:我用宫崎骏的画面截图做色彩参考,用莫奈的《日出印象》做笔触参考,生成了一组东京街景。出来的效果让我相当满意,既有吉卜力那种干净温暖的色调,又有印象派那种松散朦胧的笔触。这种精确度在 v6 时代是做不到的。
实测案例:五个场景的生成效果
说了这么多功能,来看看实际生成效果。
案例 1:建筑摄影
Prompt: A brutalist concrete museum in the desert, golden hour, long shadows, shot on Hasselblad X2D
v7 vs v6 对比:v7 的光影层次明显更丰富。混凝土表面的纹理不再是"生成感"很强的均匀灰色,而是有风化痕迹、有水渍、有不同批次混凝土的微妙色差。金色时刻的光线不只是给画面加了一层暖色滤镜,而是真的从一个方向射入,在建筑的棱角处形成了明确的明暗交界线。
评分:9/10。这是 v7 最强的场景之一。建筑和风景摄影风格的出图质量已经接近高端摄影后期处理的水准。
案例 2:人像特写
Prompt: Korean woman in her 30s, natural makeup, sitting by a window in a cafe, film grain, Fujifilm Superia 400 color palette
效果:人物的皮肤质感有明显进步,不再是 v6 那种"过度磨皮"的塑料感。毛孔、细微的皮肤纹理都能看到。胶片颗粒的模拟也比较到位,色彩还原了 Superia 400 那种偏绿偏暖的调子。
但有个问题:手部细节虽然比以前好了很多(终于不会 6 根手指了),在某些复杂姿势下还是会出现不自然的弯曲。这似乎是所有 AI 绘画模型都还没完全解决的问题。
评分:8/10。人像方面进步显著,但手部和复杂交互(比如拿杯子、翻书页)偶尔还会翻车。
案例 3:概念设计
Prompt: Biomechanical insect robot, iridescent exoskeleton, detailed mechanical joints, studio lighting, 4K product render
效果:这类概念设计/产品渲染是 Midjourney 一直以来的强项。v7 的细节密度更高了,机械关节的铰链、螺丝、液压管路都清晰可见。虹彩外壳的反光效果非常真实,不同角度显示不同颜色。
评分:9.5/10。概念设计和产品渲染依然是 MJ 的舒适区,v7 把上限又拉高了一截。
案例 4:文字渲染
Prompt: A neon sign that reads “OPEN 24/7” on a rainy Tokyo street at night
效果:这一直是 MJ 的弱项。v7 有改善,简短的英文文字(3-5 个单词)基本能准确渲染。“OPEN 24/7"这种简单内容没问题。但长句子和中文字体仍然不靠谱,经常出现乱码或笔画错误。
评分:6.5/10。有进步,但和 DALL-E 4、Ideogram 3 在文字渲染方面的差距还是明显的。
案例 5:多角色叙事
Prompt: 用 Character Lock 创建两个角色,分别生成 3 个场景的连续叙事
效果:主角色的一致性不错(如前面测试,85-90%)。但当两个角色同时出现在画面中时,偶尔会出现特征"串味"的情况,比如 A 角色的发色飘到了 B 角色上。
评分:7.5/10。单角色一致性可用,双角色同框还需要打磨。
v7 提示词技巧:新参数和写法
v7 引入了一批新参数,也改变了一些 prompt 的最佳实践。
新参数速查
| 参数 | 功能 | 示例 |
|---|---|---|
--director | 开启导演模式 | 加在任何 prompt 末尾 |
--animate | 从静态图生成视频 | --animate 10s (指定时长) |
--cref [URL] | 角色参考(一致性锁定) | --cref https://... |
--sref:color | 仅迁移色彩风格 | --sref:color [URL] |
--sref:texture | 仅迁移材质笔触 | --sref:texture [URL] |
--sref:composition | 仅迁移构图方式 | --sref:composition [URL] |
--cw [0-100] | 角色权重(控制一致性强度) | --cw 80(默认 100) |
--sv [1-4] | 风格变化度(1 最保守,4 最自由) | --sv 2 |
Prompt 写作新思路
v7 的理解能力提升后,一些以前的"hack"不再需要了。
以前的写法(v5-v6 时代):
beautiful young woman, long flowing hair, detailed eyes,
perfect lighting, professional photography, 8k, ultra HD,
masterpiece, best quality
这种堆砌"质量词"的方式在 v7 里几乎没用了。模型默认就输出高质量图片,“8k"“masterpiece"“best quality"这类词不会让画质更好,反而可能让构图变得死板。
现在的写法(v7 推荐):
A woman reading in a sunlit bookstore, afternoon light
through tall windows, dust particles in the air,
shot on Leica M11, Kodak Portra 400
关键变化:
- 描述场景,不描述质量。把精力放在画面内容、光线条件、环境氛围上。
- 用相机和胶片型号替代抽象质量词。
shot on Hasselblad比8k ultra HD有效得多,因为模型理解不同相机的成像特征。 - 减少形容词,增加名词和动词。“dust particles in the air"比"dreamy atmospheric lighting"产生更精确的效果。
- 用负面提示更精准。
--no blur, overexposed, plastic skin比--no ugly, bad quality有效。
几个实用技巧
技巧一:用"镜头语言"控制构图。
不要说"从上面看”,说"bird’s eye view, 90-degree overhead shot”。不要说"远景”,说"establishing shot, wide angle 24mm”。模型对摄影术语的理解远比对日常描述更精确。
技巧二:给模型一个"拍摄场景”。
BTS photo from a movie set, actress sitting in a
1960s diner, Panavision camera visible in the
background, cinematic lighting rig overhead
这种"元场景"描述会让模型同时模拟电影布光和高端摄影的品质,效果往往比直接描述最终画面更好。
技巧三:风格迁移 + 导演模式组合。
先用风格迁移生成一张基础图,确定整体风格和色调。然后进入导演模式微调构图和光线。这样你既能精确控制风格,又能精确控制画面。这是 v7 独有的工作流,以前做不到。
竞品对比:v7 的位置在哪?
AI 绘画的竞争在 2026 年变得非常激烈。来看看 v7 和主要竞品的对比。
vs DALL-E 4
DALL-E 4 的强项:
- 文字渲染:这是 DALL-E 4 最大的优势。不管是英文还是中文,不管是长句还是复杂排版,DALL-E 4 的准确率远超所有竞品。如果你的需求涉及海报设计、LOGO、有文字内容的图片,DALL-E 4 是第一选择。
- 指令遵循:DALL-E 4 对复杂 prompt 的理解和执行准确度更高。你说"左边放一只猫,右边放一只狗,中间是一棵树",它真的会严格按这个布局来。MJ 可能会做出"更好看"的图,但未必是你描述的那个布局。
- 安全一致:OpenAI 在内容审核上非常严格,这意味着 DALL-E 4 几乎不会输出让人不适的内容。对于商业用途,这是优点。
DALL-E 4 的弱项:
- 创意感和氛围感不如 MJ。DALL-E 4 的图像偏"工整",MJ 的图像偏"有感觉"。打个比方,DALL-E 4 像一个技术精湛但个性不鲜明的摄影师,MJ 像一个有强烈个人风格的艺术总监。
- 细节丰富度略逊。同样是一个赛博朋克街景,MJ v7 的细节层次(反光、雾气、霓虹溢出光)明显比 DALL-E 4 丰富。
- 没有导演模式。DALL-E 4 的编辑功能限于局部重绘和文字修改,不能像 MJ v7 那样实时调整构图和光线。
结论:需要精确执行(文字、布局、商业设计)选 DALL-E 4。追求视觉冲击力和艺术感选 MJ v7。两者互补而非替代。
vs Ideogram 3
Ideogram 3 的强项:
- 平面设计:Ideogram 从第一天起就把平面设计作为核心场景。海报、名片、社交媒体封面、品牌 VI,它的设计感和排版能力在所有 AI 绘画工具里最强。
- 文字渲染:和 DALL-E 4 水平接近,远超 MJ。
- 色彩搭配:Ideogram 似乎内置了更强的色彩理论知识,生成的配色方案专业度很高。
- Canvas 编辑:Ideogram 的在线编辑器支持图层操作,对设计师友好。
Ideogram 3 的弱项:
- 摄影真实感不如 MJ v7。Ideogram 的图像偏"设计风",缺少 MJ 那种"照片级"的真实感。建筑摄影、人像摄影、风景摄影这类需要真实质感的场景,MJ 明显更强。
- 概念艺术和幻想场景不如 MJ。科幻、奇幻、超现实这类需要"想象力"的场景,MJ 的训练数据和模型偏好更占优势。
- 没有视频功能。Ideogram 目前还是纯静态图工具。
- 没有导演模式。调整同样依赖修改 prompt 重新生成。
结论:做平面设计、品牌物料、有文字内容的图选 Ideogram 3。做摄影、概念艺术、视频素材选 MJ v7。
vs Stable Diffusion 3.5
SD 3.5 的强项:
- 完全开源可控:可以在本地运行,数据不出你的电脑。对于涉及敏感内容、商业机密的场景,这是硬需求。
- 无限定制:LoRA 微调、ControlNet 精确控制、ComfyUI 可视化工作流。你想怎么调就怎么调,没有任何限制。
- 无审核限制:没有内容审核系统,你可以生成任何内容。这是双刃剑。
- 成本可控:除了初始硬件投入,没有按量收费。大批量出图时成本优势明显。
SD 3.5 的弱项:
- 上手门槛高:安装配置、显卡驱动、Python 环境、模型下载、参数调试…普通用户可能在第一步就放弃了。即使用了 ComfyUI 这样的可视化界面,学习曲线也比 MJ 的 Discord 命令陡得多。
- 默认出图质量不如 MJ v7。不经过微调和仔细参数调整,SD 3.5 的默认输出比 MJ 差一个档次。但经过精心调教后可以追平甚至超越。
- 硬件要求:至少需要 12GB 显存才能流畅运行基础模型,想用高分辨率或复杂工作流需要 24GB+。这排除了很多用户。
结论:有技术能力、有硬件、需要深度定制选 SD 3.5。追求开箱即用、“打字出大片"选 MJ v7。
横向对比总结
| 维度 | MJ v7 | DALL-E 4 | Ideogram 3 | SD 3.5 |
|---|---|---|---|---|
| 摄影真实感 | ★★★★★ | ★★★★ | ★★★ | ★★★★ |
| 概念艺术 | ★★★★★ | ★★★★ | ★★★ | ★★★★★ |
| 文字渲染 | ★★★ | ★★★★★ | ★★★★★ | ★★★ |
| 平面设计 | ★★★ | ★★★★ | ★★★★★ | ★★★ |
| 视频生成 | ★★★ | ★★ | - | ★★ |
| 实时编辑 | ★★★★★ | ★★ | ★★★ | ★★★★ |
| 上手难度 | 低 | 低 | 低 | 高 |
| 定制深度 | 中 | 低 | 中 | 极高 |
| 费用 | $$$ | $$ | $$ | 硬件一次性 |
定价变化:按量计费来了
v7 发布的同时,Midjourney 调整了定价模型。
以前的方案(v6 时代):
| 套餐 | 月费 | 快速生成时间 |
|---|---|---|
| Basic | $10 | 3.3 小时 |
| Standard | $30 | 15 小时 |
| Pro | $60 | 30 小时 |
| Mega | $120 | 60 小时 |
这个"按时间计费"的模式被很多人吐槽。不同复杂度的 prompt 消耗时间差异巨大,你根本无法预估一个月会用多少。
v7 的新方案:
保留了原有的月费套餐,但新增了 Credit 按量计费 选项:
- 每张标准图消耗 1 Credit
- 导演模式每次调整消耗 0.3 Credit
- 视频生成消耗 5-10 Credit(取决于时长和分辨率)
- 风格迁移 2.0消耗 1.5 Credit
- Character Lock首次创建消耗 2 Credit,后续引用免费
Credit 可以按需购买:
| Credit 包 | 价格 | 单价 |
|---|---|---|
| 100 Credits | $10 | $0.10/张 |
| 500 Credits | $40 | $0.08/张 |
| 2000 Credits | $120 | $0.06/张 |
对比月费方案:如果你每月只生成 50-100 张图,按量计费比最低的 Basic 套餐更划算。但如果你是重度用户(每月 500 张+),月费套餐的性价比更高。
我的建议:先用 Credit 按量计费试用 v7 的新功能。确认自己的使用量后,再决定是否切换到月费套餐。导演模式和视频生成会显著增加你的使用量,因为你会不自觉地多调整几次。
适合谁用?
说了这么多,v7 到底适合谁?
设计师和视觉创作者
v7 的导演模式和风格迁移 2.0 是给你们准备的。
工作流建议:用风格迁移确定视觉调性 → 用 prompt 生成初始图 → 进入导演模式精调构图/光线 → 导出高分辨率图 → 在 Photoshop/Figma 中做最终合成。
这个流程比以前"生成 20 张挑 1 张"的方式高效太多了。导演模式让你可以把 MJ 当成一个有 AI 加持的创意画板来用,而不是一台"投币出图"的自动贩卖机。
特别适合:概念设计、Mood Board 制作、广告创意提案、品牌视觉方向探索。
内容创作者和自媒体
用 v7 解决什么问题:文章配图、社交媒体视觉、短视频封面、品牌一致性。
Character Lock 对你们来说是刚需。如果你的账号有一个虚拟形象(IP),v7 能让这个形象在不同场景下保持一致。以前要做到这点,要么花大价钱请画师画一整套素材,要么忍受每张图风格不统一的尴尬。
视频生成也有用:10 秒的循环动画做成社交媒体封面或者 Story 背景,比静态图的停留时间长 3-5 倍。
产品经理和创业者
用 v7 做什么:产品概念图、用户场景模拟、投资人演示材料、App 原型视觉参考。
以前你要描述"我想做一个这样的 App”,只能画线框图或者找相似产品截图。现在你可以用 MJ v7 直接生成"你想象中的成品界面",带光影、带材质、带氛围。
一个真实案例:我用 v7 为一个智能家居 App 的 pitch deck 生成了一组场景图。投资人的反应是"你们已经做出来了?"
当然不是。但这就是好的概念图的力量。
不太适合谁?
- 需要精确文字内容的设计:选 DALL-E 4 或 Ideogram 3
- 需要大批量统一风格出图的商业用途:选 SD 3.5 + 自定义 LoRA
- 需要长视频内容的视频创作者:选 Runway Gen-4 或 Kling 2.0
- 预算极紧的个人用户:SD 3.5 本地部署的长期成本更低
最后说几句
Midjourney v7 的"导演模式"不只是一个功能更新。它改变了人和 AI 绘画工具之间的关系。
以前的模式是:人类写需求 → AI 执行 → 人类验收 → 不满意就重来。这和传统的外包流程没什么区别。
导演模式的逻辑是:人类和 AI 同时在场。你给一个方向,AI 给出初步方案,你在方案上实时调整,AI 实时响应。这更像两个人一起画画,而不是一个人给另一个人下指令。
这个交互范式会扩散到更多 AI 工具中。 文本生成、代码编写、音乐创作,未来可能都会出现类似的"导演模式"。不是你打一段话等结果,而是你和 AI 实时共同创作。
就像电影从默片进化到有声片,改变的不只是技术,还有整个创作语言。
AI 绘画从"打字等图"到"实时导演",改变的也不只是效率,还有创作者和工具之间的关系。
v7 是这个转变的第一步。不完美,但方向对了。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。