开云(中国)Kaiyun·官方网站 - 登录入口

你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云体育  豆包大模子团队推文先容称-开云(中国)Kaiyun·官方网站 - 登录入口
开云体育  豆包大模子团队推文先容称-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-08-26 06:50    点击次数:124

  新浪科技讯 4月16日下昼音书,本日,文生图领域泰斗的第三方榜单Artificial Analysis竞技场发布音书称,字节逾越Seed团队图像生成模子Seedream 3.0详尽性能已追平文生图SOTA模子GPT-4o,牢固超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模子开云体育,干与公共第一梯队。

  Seedream 3.0是字节近日发布的新一代文生图主力模子,现在已在即梦、豆包等平台全量洞开。据Seedream 3.0手艺说明,Seedream3.0是一个原生高分别率、赞成中英双语的图像生成基础模子,无需后惩处即可闭幕 2K 分别率图像直出,适配多比例场景,同期针对小字体高保真生成、多行文本排版等业界贫穷,模子也获取了打破性的松腕发达。

  值得一提的是,Seedream 3.0在3秒傍边即可快速生成1K分别率的高品性内容,比较之下,业界同类模子生成该分别率内容的耗时基本在10秒以上,而此前文生图SOTA模子GPT-4o平均耗时为77秒。

  豆包大模子团队推文先容称,Seedream3.0研发始于2024年末,通过调研盘算师等群体的内容需求,团队不仅将图文匹配、结构、好意思感等行业共鸣性方针纳入攻坚标的,同期,也将挑战小字生成与复短文本排版、2K高清直出、快速图片生成等贫穷看成中枢观念。

  针对2K分别率、多尺寸图像直出才气闭幕,团队借助了Transformers 架构对变长输入序列的机动惩处才气,在从 512x512 到 2048x2048 的多种分别率和不同长宽比上羼杂西宾,让模子闭幕不历程稀薄深加工的高清直出,同期也赞成多种分别率输出。

  为赞成快速生成高品性图像,模子选拔自研推理加快算法,依靠一致性噪声预料,访佛蹙迫时候步采样,最终闭幕对模子的无损加快。在保险图文匹配、好意思学质料、结构准确度等方针的前提下,Seedream 3.0 生成1K分别率图像仅需3秒。

  Seedream3.0还大幅擢升了小字体高保真生成、多行文本语义排版发达,自在盘算师对海报盘算的需求。团队在预西宾阶段,引入跨模态旋转位置编码,补足传统神情模态特征对都短板,进一步加强了翰墨渲染才气。

  据Seedream团队先容,比较此前2.0版块,Seedream 3.0 在数据和RLHF阶段也使用了全新决策。团队选拔劣势感知的西宾计谋,使有用数据集膨胀突出20%,同期盘算了精确的好意思感刻画维度,并进一步拓展RLHF奖励模子,使Seedream 3.0具备多维度质料判别才气,详尽性能大幅擢升。

  Seedream团队暗示,“新模子在海报创作、生见着力、结构与好意思感等方面获取了光显进步,但在生成可用性、好意思感与结构、智能化方面仍有擢起飞间。”

  据了解,将来,团队议论探索更高效的结构盘算,包括构建抛弃更好、资本更低、生成更快的文生图模子,并进一步拓展模子对天下学问的相识,赋予模子交汇生成等才气。同期,团队也议论探索数据、模子量级、奖励模子等维度的Scaling形势,将说明累积诈欺于下一代模子中。(罗宁)

海量资讯、精确解读,尽在新浪财经APP

职守裁剪:江钰涵 开云体育