教程目录
第三章 操作界面设置与使用
第六章 Lora
第七章 ControlNet
第八章 关键字/提示词/魔法咒语
第九章 应用与实战
第十章 应用变现
第1节 图像到文本提示词反推节点 ComfyUI-Molmo
2024-11-04 11:16:17 108 人
章节介绍:ComfyUI-Molmo 节点提供强大的图像转文本功能,用户可以通过该节点将图像转换为文本描述,支持一般描述和详细分析。用户可以自定义提示输入选项,以便生成更符合需求的文本结果。

ComfyUI-Molmo 节点提供强大的图像转文本功能,用户可以通过该节点将图像转换为文本描述,支持一般描述和详细分析。用户可以自定义提示输入选项,以便生成更符合需求的文本结果。


该节点允许调节多个生成参数,如最大令牌数(max tokens)、温度(temperature)、前 k 个(top_k)和前 p 个(top_p),使用户能够灵活控制生成的文本内容和风格。此外,图像到文本的转换功能可以有效生成提示词,便于后续创作或模型输入。


功能

  • 图像转文本

  • 支持一般描述和详细分析

  • 自定义提示输入选项

  • 可调节的生成参数(max tokens, temperature, top_k, top_p)

  • 图像到文本转换,可用于生成提示词

  • 可选择在生成后自动卸载模型,释放GPU内存(对后续工作流中需要大量显存的会有帮助,但是会导致下次使用节点需要重新加载模型增加运行时间)


安装

  1. 在ComfyUI的管理器中搜索并安装"ComfyUI-Molmo"。

  2. 或者,也可以手动克隆此仓库到ComfyUI的custom_nodes目录:

    git clone https://github.com/CY-CHENYUE/ComfyUI-Molmo.git
  3. 重启ComfyUI。

  4. 依赖安装:

    • 首次运行节点时,将自动下载并安装所需的依赖项。

    • 注意:部分依赖可能需要重启ComfyUI后才能生效。如果遇到问题,请尝试重新启动ComfyUI。

  5. 模型下载:

    • 如果模型文件不存在,将在首次使用时自动下载。

    • 由于模型文件较大,下载可能需要一些时间,请耐心等待。

注意:初次使用时,由于需要下载模型和安装依赖,启动时间可能会较长。后续使用将会更快。


使用

安装后,您可以在ComfyUI的节点菜单的"Molmo"类别中找到"Molmo 7B D bnb 4bit"节点。


000.jpg


输入参数

  • image: 要描述或分析的输入图像

  • prompt_type: 选择"Describe"进行一般描述或"Detailed Analysis"进行更全面的分析

  • custom_prompt: 可选。如果提供,将覆盖选定的prompt_type

  • seed: 用于可重现性的种子

  • max_new_tokens: 生成的最大标记数

  • temperature: 控制生成的随机性

  • top_k: 限制下一个词选择的词汇表

  • top_p: 核采样参数

  • unload_model_after_generation: 选择是否在生成后自动卸载模型以释放GPU内存

输出

  • STRING: 生成的描述或分析


示例

000.jpg


模型下载地址: