文生图评分中国第一全球第二_商业

文生图评分中国第一全球第二

创始人

2026-06-12 00:21:05

0次

（来源：新安晚报）

转自：新安晚报

　　用户用智象未来（HiDream.ai）大模型生成的中国古风美女。

　　本报讯近日，合肥高新区企业智象未来全新推出的商用版图像生成模型HiDream-O1-Im⁃age-1.5再次实现SOTA（StateoftheArt的缩写，指在特定领域内当前最佳的技术水平或模型表现），在全球知名独立AI模型评测与分析平台ArtificialAnalysis的文生图榜单（TexttoImageLea⁃derboard）上，一举登上中国图像生成模型第一，全球评分仅次于OpenAI。

　　ArtificialAnalysis的文生图榜单采用匿名对比、用户投票和ELO（埃洛，匈牙利裔美国物理学家、国际象棋大师）动态排名机制，尽量减少品牌认知对评测结果的影响，更接近真实用户在开放生成场景中的偏好判断。在这一专业评测体系下，HiDream-O1-Im⁃age-1.5在超过4000个样本对比中取得1265ELO。HiDream-O1-Image-1.5的表现不仅体现了模型在图像质量上的竞争力，也反映出其在语义遵循、复杂画面生成、文字渲染和多主体控制等综合能力上的提升。

　　据了解，传统文生图模型通常采用“文本编码器+VAE+DiT/扩散模型”的模块化路径，其形态更像一棵不断分叉生长的树，模块之间需要多次转换信息。在文字密集排版、多主体生成、多参考图控制、多分镜叙事等复杂任务中，更容易带来细节损耗、语义错位和结构不稳定。

　　智象未来的HiDream-O1原生全模态架构走的是另一条路线：不是各个模态长大之后二次拼接，而是从原生初始阶段就像“青梅竹马”一般在模型底层水乳相融。HiDream-O1的Image系列模型剔除了传统路径中的VAE和独立文本编码器，将图像像素、文本Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享Token空间，直接与同一套UiT——像素级统一的UnifiedTransformer交互，在统一表征系统中完成理解、生成和推理。

　　图像是通向视频生成和全模态世界建模的重要入口。一张图像承载着现实世界某一时刻的主体、空间、材质、光影、文字和关系；只有稳定理解并生成这些状态，模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。半个月前，智象未来Hi⁃Dream-O1系列的开源模型Hi⁃Dream-O1-Image-Dev-2604登顶文生图榜单开源模型全球第一。数周之后，HiDream-O1-Im⁃age-1.5再次进入全球文生图大模型榜单前三，不仅印证了智象未来在图像生成大模型上的硬核实力，更标志着其已在视觉生成大模型的角逐中稳居全球第一梯队阵营。

　　业内人士分析，HiDream-O1-Image-1.5强势表现说明，基于像素级原生统一架构的路线，正在把图像生成模型的竞争从“更大参数”和“更好看画面”，推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。它不仅提升了单图生成效果，也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来长视频生成提供了更稳定的底层能力，进一步证明了中国大模型企业参与全球顶级大模型竞争的实力，也验证了UiT原生统一架构作为下一代多模态模型坚实底座的可行性。从单张图像生成的入口到连续世界建模，智象未来正在以持续的底层架构创新，构建下一代内容生产与智能交互的人工智能基础设施。

　　新安晚报安徽网大皖新闻记者项磊

上一篇：甲骨文拟大幅追加融资、现金流承压，股价暴跌11%

下一篇：三祥科技：拟增资境外控股子公司三祥泰国

文生图评分中国第一全球第二

相关内容

热门资讯