第1节图像到文本提示词反推节点 ComfyUI-Molmo-森然网

教程目录

首页

第一章基础入门

第1节：什么是ComfyUI?

第2节：为什么要学习ComfyUI?

第3节：midjourney 与 ComfyUI 对比

第4节：SD webUI 与 ComfyUI 对比

第5节：SD/Stable Diffusion/webUl/comfyUl关系是什么

第二章 ComfyUI 安装与配置指南

第1节：本地安装与部署(Windows系统)

第2节：ComfyUI (Mac系统) 本地安装与部署

第4节安装插件Manager(必备插件)

第5节 ComfyUI工作流目录结构详解

第6节 AIGODLIKE-ComfyUI-Translation语言包安装(必备插件)

第三章操作界面设置与使用

第1节：comfyui工作流快捷键大全

第四章模型

FLUX.1模型使用安装及注意事项

第五章插件与节点

第1节图像到文本提示词反推节点 ComfyUI-Molmo

第2节：Checkpoint加载器(Load Checkpoint节点)

第3节：K采样器(KSampler节点)

第4节：CLIP文本编码器【CLIP Text Encode (Prompt)节点】

第5节：空Latent（Empty Latent Image）

第6节：VAE解码器（VAE Decode节点）

第7节：图像预览节点(Preview image节点)

第8节：VAE分块解码节点【VAE Decode(Tiled)节点】

第9节：图像反转(Invert Image)节点

第10节：图像加载Load Image节点

第11节：外补图像（Pad Image for Outpainting）节点

第12节：VAE内补编码器VAE Encoder (for inpainting) 节点

第13节：保存图像 Save Image 节点

第14节：图像缩放 Upscale image节点

第15节：图像通过模型放大Upscale Image(using Model)节点

第六章 Lora

第七章 ControlNet

第八章关键字/提示词/魔法咒语

第九章应用与实战

第十章应用变现

第十一章常见问题

ComfyUI-Manager管理器通过Git URL安装报错：This action is not allowed with this security level configuration.

第1节图像到文本提示词反推节点 ComfyUI-Molmo

2024-11-04 11:16:17 835 人

章节介绍：ComfyUI-Molmo 节点提供强大的图像转文本功能，用户可以通过该节点将图像转换为文本描述，支持一般描述和详细分析。用户可以自定义提示输入选项，以便生成更符合需求的文本结果。

ComfyUI-Molmo 节点提供强大的图像转文本功能，用户可以通过该节点将图像转换为文本描述，支持一般描述和详细分析。用户可以自定义提示输入选项，以便生成更符合需求的文本结果。

该节点允许调节多个生成参数，如最大令牌数（max tokens）、温度（temperature）、前 k 个（top_k）和前 p 个（top_p），使用户能够灵活控制生成的文本内容和风格。此外，图像到文本的转换功能可以有效生成提示词，便于后续创作或模型输入。

功能

图像转文本
支持一般描述和详细分析
自定义提示输入选项
可调节的生成参数(max tokens, temperature, top_k, top_p)
图像到文本转换,可用于生成提示词
可选择在生成后自动卸载模型，释放GPU内存（对后续工作流中需要大量显存的会有帮助，但是会导致下次使用节点需要重新加载模型增加运行时间）

安装

在ComfyUI的管理器中搜索并安装"ComfyUI-Molmo"。
或者，也可以手动克隆此仓库到ComfyUI的custom_nodes目录:
```
git clone https://github.com/CY-CHENYUE/ComfyUI-Molmo.git
```
重启ComfyUI。
依赖安装：

首次运行节点时，将自动下载并安装所需的依赖项。
注意：部分依赖可能需要重启ComfyUI后才能生效。如果遇到问题，请尝试重新启动ComfyUI。

模型下载：

如果模型文件不存在，将在首次使用时自动下载。
由于模型文件较大，下载可能需要一些时间，请耐心等待。

注意：初次使用时，由于需要下载模型和安装依赖，启动时间可能会较长。后续使用将会更快。

使用

安装后,您可以在ComfyUI的节点菜单的"Molmo"类别中找到"Molmo 7B D bnb 4bit"节点。

输入参数

image: 要描述或分析的输入图像
prompt_type: 选择"Describe"进行一般描述或"Detailed Analysis"进行更全面的分析
custom_prompt: 可选。如果提供,将覆盖选定的prompt_type
seed: 用于可重现性的种子
max_new_tokens: 生成的最大标记数
temperature: 控制生成的随机性
top_k: 限制下一个词选择的词汇表
top_p: 核采样参数
unload_model_after_generation: 选择是否在生成后自动卸载模型以释放GPU内存

输出

STRING: 生成的描述或分析

示例

模型下载地址：