可灵AI 2.0首发实测
创始人
2025-04-15 17:22:45
0

请你提供具体的“灵 AI 2.0 首发实测”相关内容呀,比如它在哪些方面的表现、有哪些独特之处等,没有这些信息我没法准确进行描述呢。


在Sora之前,就已经受到全世界用户的认可的生成式视频工具是什么?可灵AI。


无需折腾剪辑软件,几分钟,就能拿到自然如实拍,画面质感如电影的动态视频。



可灵稳坐国产AI视频的头把交椅许久,从去年6月6日首次上线开放测试以来,产品快速经历了二十多个版本的迭代。可灵1.6模型的图生视频内部评测,比1.5模型整体效果提升近200%,还让毛绒玩具的特效迅速出圈。




现在,可灵终于又迎来了一次重大更新:可灵2.0视频生成,以及可图2.0文生图模型。




从人物跑动、火焰燃烧的真实物理轨迹,到机械蝴蝶穿梭未来都市的奇幻场景,AI不仅能精准模拟现实世界的运动规律,更能将抽象文字转化为惊艳的动态画面。


APPSO第一时间来到发布会现场,本次的更新亮点包括


1. 可灵、可图模型层面更新,快手结合多项自研技术创新,画面美学、语义响应和动态质量大幅度提升。2.0全面升级了训练和推理策略,尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。


2. 精准微调功能。可灵新增了“多模态编辑”功能,支持在一段5s的视频的基础上,输入图片/文字,对视频进行灵活、精准的修改和再创作。在图片生成中还新增了“图片编辑”及“风格转绘”功能。


3. AI音效生成,根据影像内容结合文字prompt,生成适配的音效片段


另外,我们还提前体验了内测,除了震撼于新模型的强大之外,也发现了一些使用小技巧,帮助你体验这款强大的生成+编辑工具。



不止是多模态功能,更是一种语言


仅仅使用文字作为和AI沟通的语言,显然不足够,只能有限描述脑海中的想法。配合图片,准确程度提高一层。再结合动态影像,又更上一层楼。


这些,共同形成了MVL:Multi-modal Visual Language,一种全新的交互“语言”。MVL=TXT语义骨架+MMW多模态描述子,即通过文本+动作描述文件,生成精细的视频成片。


这套语言形成了可灵2.0中新增的“多模态编辑”功能。包括三种模式:替换、增加和删除。



在可灵的创意社区,我们发现了一个来自可灵用户制作的视频,堪称现实主义创作。



不过嘛,既然是现实主义题材,还可以再写实一点:应该让川普和马斯克,去工厂里装手机。


这就是“多模态编辑”大展身手的时刻了,我们先来把缝纫机删掉。通过下方的文字输入框,@具体的图片和部分,进一步明确需要改动的内容。


at的设计很符合用户直觉,尤其是多个素材的情况下,能更方便地用文字指出要改动的对象



注意!点击编辑,会弹出笔刷编辑界面。在这里,可以通过用涂抹的方式,选择要替换的具体区域——一定要在时间线上选几个点,才能保证覆盖到整个视频。




可以看到,在涂抹和文字prompt的双重保险下,单个元素能被删得干干净净。



替换模式就有更多可玩的了,除了修改原视频,还可以结合图片。



不是要让这俩人去装手机吗?把手机流水线的图片导入,进入选择主题界面,框出具体的部分。



大功告成!


在可灵2.0版本中,“多模态”不仅是一个新功能,更是一种全新的互动语,更充分地开发和调用模型的能力,作用于实际的创作工作流。


从生成到编辑,全链路的创作工作流


如果说“多模态编辑”满足的是影像从业者,在精细调优方面的要求,那可图2.0以及可灵的图生视频模式,就是造福所有人民群众的。


图生视频占到使用比例的85%,是更为可用的手段。再搭配视频模态微调,就能实现一次跑完所有流程


比如,先拿胶布人形象图,生成当下最流行的3D玩偶版本。



然后直接生成视频——没错,手指和动作,只是一句话即可生成。




文字prompt随意更改,镜头视角调整后,又是一支新片。




截取《清明上河图》的一段画面,交给可灵2.0即可,汴河水波荡漾,船只随流水轻摇,岸边行人熙熙攘攘。近千年前的社会风貌“焕发生机”。



灯火通明,丝竹乱耳,宾客们酒杯叮当,《韩熙载夜宴图》的主人公半醉半醒的场景也在可灵AI 2.0的帮助下得到了很好的还原。动态质量和运动幅度,都和素材的题材相当符合



OpenAI创始团队已然分崩离析,但聚是一团火,散是满天星,下面这张经典的合照倒也很符合OpenAI当下的处境。



Sam Altman与马斯克的恩怨纠葛早已是科技圈的谈资,两人没少针锋相对,我们也用AI“重现”了他俩干架的名场面。



从动作的流畅性可以看出可灵2.0在时序响应上的能力,动作符合逻辑、连贯自然。


下一代创作工具,已经到来


显然,可灵推出2.0版本,不仅为了展示技术上的进步,也是对理念的再阐述:全新的功能,全新的语言,全新的能力。


在设计了全新的DiT架构之后,视觉模态和文本模态的融合更加对齐。同时,这次的更新背后是对后训练的大量探索。


在预训练阶段,可灵团队通过精准的建模与训练和视觉标注的映射,让文本和图像的对齐做得更好。在后训练阶段,可灵还利用强化学习提升了多模态推理能力。


不过,更重要的是,可灵所秉承的“让灵感成真”理念,使得使用体验成为整个产品的中心。


模型能力并不是炫技的武器,也不是秀肌肉的手段,而是需要实在地进入用户的工作流当中,让每个创作者,无论经验如何,都能以简单的方式、便捷的工具,讲好自己心中的故事。


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

相关内容

热门资讯

苏州赛腾精密电子股份有限公司 ... 本公司董事会、全体董事及相关股东保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容...
赛象科技跌1.43%,成交额2... 5月9日,赛象科技跌1.43%,成交额2.08亿元,换手率6.43%,总市值32.37亿元。 异动分...
此次联演展现三种军事能力 专家... 请你提供具体的联演内容呀,没有相关信息我没法准确进行描述呢。比如联演的名称、参与的军事力量、具体的军...
执、仗、亮、击!现场感受陆军火... 在那广袤的战场上,陆军与火箭军紧密协作。“执”起手中的武器,那是坚守的决心;“仗”剑天涯,展现出无畏...
东部战区发布军事行动主题海报《... 东部战区发布的军事行动主题海报《锁控》,画面极具震撼力。海报中,一艘威严的战舰如钢铁巨塔般屹立在波涛...
突发!台湾地震!福建网友:震感... 突发!台湾地区发生地震,这一消息迅速引起广泛关注。福建的网友们纷纷表示震感明显,切身感受到了这场地震...
外交部:中方已提出严正交涉 敦... 外交部明确表示,中方已提出严正交涉,这彰显了中国在台湾问题上的坚定立场。台湾是中国不可分割的一部分,...
从“证”通到心通:闽台职业资格... 《“证”通到心通:闽台职业资格互认再提速》闽台两地职业资格互认步伐不断加快,如今再度提速。这一举措宛...
台湾抗日志士后人与文史专家还原... 在台湾历史的长河中,台湾抗日志士后人与文史专家携手,致力于还原“马关割台”这一惨痛历史。他们深入研究...
福建省首个台胞银龄人才驿站成立 福建省首个台胞银龄人才驿站正式成立啦!这一驿站的诞生,为广大台胞提供了一个温暖的“港湾”。它犹如一座...
国防部:民进党当局对美国人予取... 国防部指出,民进党当局对美国人予取予求,这种行径严重祸害了台湾民生。民进党当局为了讨好美国,不惜出卖...
台青兄妹在榕开料理店创业 在福州的街头,有一对台青兄妹正开启他们的料理店创业之旅。哥哥有着娴熟的厨艺,妹妹则擅长店铺运营。他们...
浪漫来袭!宝瓶座η流星雨6日迎... 浪漫来袭!宝瓶座η流星雨 6 日迎来极大。在那静谧的夜空下,无数闪烁的星辰仿佛是宇宙的诗篇。而宝瓶座...
拜登:特朗普太掉价了 拜登曾多次对特朗普作出评价,其中“特朗普太掉价了”这一言论反映出他对特朗普行事风格和政治形象的看法。...
“青春力量 筑梦强国”大学生原... “青春力量 筑梦强国”大学生原创作品展映活动在榕圆满落下帷幕。活动现场氛围热烈,大学生们的原创作品精...
罗马尼亚临时总统博洛让任命普雷... 罗马尼亚临时总统博洛让做出重要任命,正式任命普雷多尤为看守政府总理。这一举措标志着罗马尼亚政治进程中...
巴基斯坦宣布进入紧急状态 近日,巴基斯坦宣布进入紧急状态。这一举措引起了广泛关注。紧急状态的宣布意味着国家将在特定时期采取一系...
综合治理食品添加剂滥用问题,六... 为有效治理食品添加剂滥用问题,六部门联合出击!此次行动彰显了对食品安全的高度重视。六部门协同作战,从...
中国人民银行推出三大类、十项措... 中国人民银行积极行动,推出三大类、十项措施以全力支持稳市场稳预期。在货币政策类措施中,灵活调整信贷投...
自5月15日起,央行降低存款准... 自 5 月 15 日起,央行作出重大举措,降低存款准备金率 0.5 个百分点。这一政策调整如同一股暖...