FIBO— 开源的图像生成模型,首个原生支持JSON

FIBO是什么

fibo 是首个开源且原生支持 json 的文本生成图像模型,专为处理长篇、结构化的描述而设计。该模型在超过 1 亿条结构化 json 描述(每条约含 1,000 字)上进行训练,能够精确且可重复地控制光照、构图、色彩以及相机参数。fibo 提供三种使用模式:生成、精修与灵感,并具备特征解耦能力,允许用户单独调整某一属性而不影响整体画面。所有训练数据均来自合法授权来源,确保了使用的合规性与法律透明度,非常适合集成到专业创作流程中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

FIBO的主要功能

  • 文本转图像:根据输入的自然语言描述,自动生成高保真图像。
  • 结构化 JSON 提示扩展:将简单提示自动转化为详尽的 JSON 结构描述,涵盖光线、视角、色调等细节。
  • 多轮迭代优化:支持从初始文本出发生成图像,也可基于已有 JSON 进行多次精细化调整。
  • 独立属性调控:实现特征解耦,可单独修改如焦距或光源方向等参数,保持场景一致性。
  • 灵感激发模式:上传图像后提取其结构化信息,用于生成风格相似的新图像,辅助创意探索。
  • 合规数据保障:全部训练数据均获得合法授权,满足企业级法律和版权要求。
  • 生产环境适配:提供 API 接口、ComfyUI 插件支持及本地部署方案,便于工程集成。

FIBO的技术原理

  • 模型架构:采用 8B 参数规模的 DiT(Diffusion Transformer)结构,结合流匹配(Flow Matching)技术进行训练。
  • 文本理解模块:使用 SmolLM3-3B 作为文本编码器,配合创新的 DimFusion 条件注入机制,高效处理超长文本输入。
  • 图像编解码器:搭载 Wan 2.2 VAE 模块,负责图像的压缩与重建。
  • 智能提示增强:引入视觉语言模型(VLM)将用户简短描述自动补全为完整 JSON 提示。
  • 结构化监督学习:以结构化 JSON 数据作为训练目标,强化语义分离能力,防止提示漂移。
  • 数据合法性基础:训练集由超过一亿条授权获取的长格式 JSON 描述构成,确保模型输出合法可靠。

FIBO的项目地址

  • GitHub仓库:https://www./link/12ac425957335528f185ebbd3f344307
  • HuggingFace模型页面:https://www./link/d3102a0b7413aa55427210bbd83624b4
  • 在线体验入口:https://www./link/25cd125f8916019a9d5909d771fdef61

FIBO的应用场景

  • 创意设计领域:适用于广告、产品原型和平面设计,支持快速出图与精细调控,提升创作效率。
  • *与游戏制作:可用于生成概念艺术、场景草图和角色设定,加速前期视觉开发流程。
  • 教学与培训应用:帮助创建教学插图和虚拟实验环境,丰富教育内容表现形式。
  • 科研可视化:将复杂科学数据转化为直观图像,助力研究成果展示与分析。
  • 医疗教育支持:可生成医学解剖图、手术模拟场景,服务于医学教学与临床培训。