(来源:新安晚报)
转自:新安晚报
用户用智象未来(HiDream.ai)大模型生成的中国古风美女。
本报讯 近日,合肥高新区企业智象未来全新推出的商用版图像生成模型HiDream-O1-Im⁃age-1.5再次实现SOTA(StateoftheArt的缩写,指在特定领域内当前最佳的技术水平或模型表现),在全球知名独立AI模型评测与分析平台ArtificialAnalysis的文生图榜单(TexttoImageLea⁃derboard)上,一举登上中国图像生成模型第一,全球评分仅次于OpenAI。
ArtificialAnalysis的文生图榜单采用匿名对比、用户投票和ELO(埃洛,匈牙利裔美国物理学家、国际象棋大师)动态排名机制,尽量减少品牌认知对评测结果的影响,更接近真实用户在开放生成场景中的偏好判断。在这一专业评测体系下,HiDream-O1-Im⁃age-1.5在超过4000个样本对比中取得1265ELO。HiDream-O1-Image-1.5的表现不仅体现了模型在图像质量上的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染和多主体控制等综合能力上的提升。
据了解,传统文生图模型通常采用“文本编码器+VAE+DiT/扩散模型”的模块化路径,其形态更像一棵不断分叉生长的树,模块之间需要多次转换信息。在文字密集排版、多主体生成、多参考图控制、多分镜叙事等复杂任务中,更容易带来细节损耗、语义错位和结构不稳定。
智象未来的HiDream-O1原生全模态架构走的是另一条路线:不是各个模态长大之后二次拼接,而是从原生初始阶段就像“青梅竹马”一般在模型底层水乳相融。HiDream-O1的Image系列模型剔除了传统路径中的VAE和独立文本编码器,将图像像素、文本Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享Token空间,直接与同一套UiT——像素级统一的UnifiedTransformer交互,在统一表征系统中完成理解、生成和推理。
图像是通向视频生成和全模态世界建模的重要入口。一张图像承载着现实世界某一时刻的主体、空间、材质、光影、文字和关系;只有稳定理解并生成这些状态,模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。半个月前,智象未来Hi⁃Dream-O1系列的开源模型Hi⁃Dream-O1-Image-Dev-2604登顶文生图榜单开源模型全球第一。数周之后,HiDream-O1-Im⁃age-1.5再次进入全球文生图大模型榜单前三,不仅印证了智象未来在图像生成大模型上的硬核实力,更标志着其已在视觉生成大模型的角逐中稳居全球第一梯队阵营。
业内人士分析,HiDream-O1-Image-1.5强势表现说明,基于像素级原生统一架构的路线,正在把图像生成模型的竞争从“更大参数”和“更好看画面”,推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。它不仅提升了单图生成效果,也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来长视频生成提供了更稳定的底层能力,进一步证明了中国大模型企业参与全球顶级大模型竞争的实力,也验证了UiT原生统一架构作为下一代多模态模型坚实底座的可行性。从单张图像生成的入口到连续世界建模,智象未来正在以持续的底层架构创新,构建下一代内容生产与智能交互的人工智能基础设施。
新安晚报 安徽网 大皖新闻记者 项磊