Learn-skills.dev multimodal-gen
多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。
install
source · Clone the upstream repo
git clone https://github.com/NeverSight/learn-skills.dev
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/NeverSight/learn-skills.dev "$T" && mkdir -p ~/.claude/skills && cp -r "$T/data/skills-md/aaaaqwq/agi-super-skills/multimodal-gen" ~/.claude/skills/neversight-learn-skills-dev-multimodal-gen && rm -rf "$T"
manifest:
data/skills-md/aaaaqwq/agi-super-skills/multimodal-gen/SKILL.mdsource content
多模态内容生成
当用户需要生成图片或视频时,自动调用
multimodal-agent 进行处理。
触发场景
图片生成
- "生成一张图片"
- "画一张..."
- "AI 作图"
- "文生图"
- "帮我生成图像"
- "用 flux/imagen/dalle 生成"
视频生成
- "生成一个视频"
- "做个视频"
- "文生视频"
- "用 veo/sora/kling 生成视频"
使用方式
自动调用 multimodal-agent
sessions_spawn( agentId="multimodal-agent", task="生成图片: {用户描述}, 使用 {模型} 模型" )
可用模型
图片生成
| 别名 | 模型 | 特点 |
|---|---|---|
| flux-pro-max | 高质量,推荐 |
| google/imagen-4-ultra | Google 最强 |
| gpt-image-1 | DALL-E 3 |
| doubao-seedream-4-5 | 中式美学 |
| kling-image | 可灵生图 |
视频生成
| 别名 | 模型 | 特点 |
|---|---|---|
| veo3.1-pro | Google 专业版 |
| veo3.1-pro-4k | 4K 高清 |
| sora-2-pro-all | OpenAI Sora |
| kling-video | 可灵视频 |
执行流程
用户请求 "生成一张猫咪图片" │ ▼ ┌─────────────────────────────────────┐ │ 1. 识别为图片生成请求 │ │ 2. 提取描述: "猫咪" │ │ 3. 选择默认模型: flux-pro-max │ └─────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────┐ │ sessions_spawn( │ │ agentId="multimodal-agent", │ │ task="生成图片: 一只可爱的猫咪, │ │ 使用 flux 模型" │ │ ) │ └─────────────────────────────────────┘ │ ▼ multimodal-agent 执行生成并返回结果
示例
生成图片
用户: 帮我生成一张日落海滩的图片 执行: sessions_spawn( agentId="multimodal-agent", task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型" )
生成视频
用户: 用 sora 生成一个猫咪玩耍的视频 执行: sessions_spawn( agentId="multimodal-agent", task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型" )
指定模型
用户: 用 doubao 画一张中国风山水画 执行: sessions_spawn( agentId="multimodal-agent", task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型" )
模型选择建议
| 场景 | 推荐模型 |
|---|---|
| 通用高质量 | |
| 中式风格 | |
| 写实照片 | |
| 创意艺术 | |
| 高清视频 | |
| 电影级视频 | |
| 快速视频 | |
注意事项
- 提示词优化: multimodal-agent 会自动优化用户的描述
- 模型选择: 如果用户没指定,默认使用 flux (图片) 或 veopro (视频)
- 异步执行: 视频生成可能需要较长时间,会在后台执行
- 结果返回: 生成完成后会自动发送结果给用户