OpenAI发布生图神器狙击Google,一句话精细P图
创始人
2025-03-26 08:23:23
0

OpenAI 近期发布了令人瞩目的生图神器,仿佛是对 Google 的一次强力狙击。这一神器具备强大的图像生成能力,能够轻松创造出各种奇妙的画面。尤其值得一提的是其“一句话精细 P 图”功能,只需寥寥数语,就能精准地对图像进行修饰和调整。无论是改变色彩、添加特效,还是重塑形状,都能在瞬间完成,仿佛拥有一双神奇的画笔,让图像创作变得更加便捷和高效。这一创新之举无疑将在图像领域掀起新的波澜,为用户带来全新的视觉体验。


本文来自微信公众号:APPSO (ID:appsolution),原文标题:《刚刚,OpenAI 发布生图神器狙击 Google!一句话 P 图奥特曼现场玩梗,免费能用》,题图来自:新模型AI生成


就在刚刚,OpenAI宣布在GPT-4o模型中集成了迄今为止最先进的图像生成器。


OpenAI CEO Sam Altman在X平台继续夸夸群主上线,表示初次见到模型生成的图片时,难以相信是AI所为,并期待用户能发挥创意。



新功能亮点如下:


  • 能够精确渲染文本内容

  • 支持多模态输入输出(文本、图像、音频)

  • 能理解复杂指令并结合上下文

  • 能创建具有真实感的第一人称视角图像

  • 遵循指令,可以处理上传的图片并进行编辑或风格转换


先来感受一下新模型生成的图片:





最新版本的系统卡写到,与作为扩散模型的DALL·E不同,4o图像生成是一个自回归模型,原生嵌入在ChatGPT中。


具体来说,比起其他图像生成模型,GPT-4o能处理多达10—20个不同物体的复杂指令,远超竞争对手5—8个的限制,差距不是一般大。


一句话P图也行,该模型同样支持多轮图像生成,聊着天就能优化图像,确保角色等元素在多次迭代中保持一致性。


比如设计个游戏角色,改来改去外观都能稳住,还能分析用户上传的图像、细节抓得准,并指导后续图像生成。


目前,新功能已向Plus、Pro、Team和免费用户开放,Enterprise和Edu用户即将获得访问权限。别急,开发者们几周后也能通过API用上这功能。


使用GPT-4o创建和自定义图像非常简单,只需描述需求,包括纵横比、精确颜色或透明背景等规格。不过要是细节多,渲染可能得等上一分钟,毕竟慢工出细活嘛。



今天凌晨召开的发布会也向我们展示了几个具体的案例。比如说,演示者拍了张仨人的合影,让ChatGPT改成动漫风。


结果模型不仅保留了三人的特征(如胡须、表情等),还能理解并融合「动漫」这一视觉风格。


接着他又让它改成互联网梗图,加上了「I FEEL THE AGI」的文字,果然,OpenAI的发布会少了AGI总感觉差点意思,属实是传统艺能了。



又或者,演示者要求模型创建一个「描述相对论的彩色漫画页面,并添加幽默元素」。


模型生成一个结构完整的漫画页面,包含了相对论相关概念的解释,融合了不同语言的文字,并通过视觉表现形式呈现出幽默效果。



换句话说,能够将抽象科学概念可视化,有望利好教育领域。


还有演示者先上传了一张Sora发布会的交易卡片照片作为参考,然后上传了自己宠物狗的照片,并提供了卡片上应包含的具体信息(名称、年份、能力、体重身高等)。


模型很快整出一张风格统一的卡片。卡片里,狗狗站在滑雪板上帅气出场,文字排版清晰准确。



继续上强度,演示人员拿前两个演示的图加上背景两张图,让模型设计一枚纪念币,并指定了特定的颜色代码(春季色彩)和文字要求。


模型成功将四张不同图像以和谐方式融合到一个币面设计中。他随后还要求将背景改为透明,以便实际打印,模型稳稳改好,设计也没走样。



AI生成图像造成的危害已经不是什么新鲜的话题了。为了安全,所有生成图像都带有C2PA元数据标识,OpenAI还构建了内部搜索工具,验证内容来源,以及阻止违反内容政策的图像请求。


当要求生成真人图像时,OpenAI则管得更严。包括Altman也表示,OpenAI希望工具默认不生成冒犯性内容,除非用户明确要求,并在合理范围内实现。


新功能也存在比较明显的短板。比如偶尔裁剪不恰当、低上下文提示下可能产生幻觉、渲染非拉丁语言文本困难、局部调整不够细等。OpenAI说了,这些小问题会在发布后慢慢优化。



此外,Google于今天凌晨也发布了旗下迄今为止最强大的AI模型。


Google CEO Sundar Pichai在线打Call,称Gemini 2.5 Pro Experimental是一款最先进的「思维」模型,在多个基准测试中领先,特别是在推理和编程能力上有了显著的提升。


在大模型竞技场Chatbot Arena中,新模型力的排名压Gork 3,再次遥遥领先。



按照OpenAI过往的「狙击」作风,新模型的发布一方面是对上周Google发布的图像模型进行回击,另一方面同样是狙击Gemini 2.5 Pro Experimental。


你方唱罢我登场,AI巨头们针锋相对的戏码只会越演越烈,消停?看来是想都别想了。


本文来自微信公众号:APPSO (ID:appsolution)

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...