The following article is from 差评前沿部 Author 世超女同 h
这回,世超掏着一个传奇不雷同的视频模子:sand.ai 的 Magi-1。
具体有啥不雷同?咱们先翻了翻 sand.ai 的尊府,发现他们团队还确实有点来头。
创举东说念主曹越和联创张拯早在 2021 年的万引神文 Swin Transformer 就有协作,都曾接事于科技界的黄埔军校 —— 微软亚洲商酌院。曹越如故光年除外的创举东说念主之一。
在强强联手的 buff 加抓下,sand.ai 创立才一年多就有了我方的第一个视频生成模子 Magi-1。
传奇 Magi-1 是当今市面上惟逐一款能进行无尽时长视频续写的模子,还能深奥化戒指到每一秒生成的内容。
要知说念当今视频生成模子的极限大都就几十秒,像可灵那样一分钟以上的都很极度。要生成更长的视频,那是另外的。。。另外的价格也不行,这是底层模子的技巧问题。
而 Magi-1 救援无尽时长续写,还可以每次同期生成最多 16 个 1s 到 10s 的视频。
不光技巧有立异,sand.ai 还暗示,他们照旧在 4 月 21 日开源了模子,并同步上线居品 demo。
连业界大佬都发文力挺 sand.ai,李开复发帖,这是继 DeepSeek 之后又一个开源的宇宙级模子。
好意思团创举东说念主王慧文也为 sand.ai 这波开源发声:"唯独科技的不断前行,能救援东说念主类掉入零和游戏的深坑。"
咱们去翻了几个官方的案例,大概如实有点东西啊。
望望这迅速的贯通速率!
再望望这丝滑的镜头调度!
这可让世超有点期待了。
不外得先镇定一下。测试下来,嗅觉思法是很有后劲的,有上风和脾性,关联词生成的效果还有待提高。
咱们先找了个梦中情车的正面特写慢镜头,准备续写接下下世超驾驶 Lamborghini 秋名山车神再世的画面。
测试的历程中,咱们发现 Magi-1 关于贯通速率和镜头的戒指如实很优秀。兰博基尼在路上奔驰的效果作念出来了,镜头也很有电影感,一直聚焦在跑车上。
还有一个很显然的优点,便是 Magi-1 关于视频主要物体的保护相配到位。不会在屡次续写之后,跑车变身大黄蜂的情况。
它对物理环境的流露亦然正确的,车辆一直保抓在大地上,莫得出现低空遨游之类的骚操作。
不外。。。Magi-1 大概有点忘记。比如前三段生成的视频都知说念车后是一面墙,扫尾第四段径直一个倒车摆尾漂移丝滑起程了。
而况场景流露自从起程就越来越综合了。除了克苏鲁风绿化带,教唆词让它在红灯前刹车,本意遵纪称职,它径直来个交通惹事。
天然如实是在红灯前刹车,没过错
但咱们接下来的测试发现,效果不好也不行全怪模子,还可能是教唆词出了问题。
翻开 Magi-1 的教唆词增强,它可以把粗浅的教唆词膨大成更详备、容易让模子流露的指示。但在本色使用的时候,它出现了添枝加叶,假传圣旨的表象。
比如这里,咱们只思让小鸡玩物跳起来,教唆词增强我方给我方上了个难度,还要让小鸡扇动翅膀。
但如果咱们把教唆词复制一遍,只删掉扇翅膀的条件,关掉教唆词增强,生成的视频效果坐窝好起来了。
左图有扇翅膀教唆词,右图去掉扇翅膀教唆词
接下来,咱们再对之前的卓越教唆词径直进行修改,造成让镜头迟缓左移。
效果看起来也可以,环境莫得崩,小鸡也莫得崩,镜头委果转移了。
在干涉视频生成当作之前,最佳让全球伙儿望望增强的教唆词对分辩,给一个修改教唆词的契机。
毕竟生成一次如故要等挺久的,如果终末才发现中间教唆词被魔改了,有点搞心态。
这也侧面反应了,Magi-1 关于教唆词是相配明锐而况条件很高的。思用好它,最佳知说念什么样的教唆词才调让它出好活。
av迅雷看完测试,你可能以为,这模子有点拉呀,当今生收效果比这个好的多的是,为啥把它拿出来说?
因为它和咱们熟悉的 Sora 等非自转头 DiT 模子 ( Diffusion Transformer ) 的技巧道路系数不雷同,是一个自转头生成模子 AR ( Autoregressive model ) 。
AR 模子就像一条丝丝入扣的锁链,每一次生成视频的新一帧,都在前一帧的基础上。这么生成的视频相邻帧之间就会有强相干性。
而 DiT 模子更像是放在一说念伪装成锁链的一堆铁环。它为了服从会同期生成许多帧,但莫得目的兼顾到帧与帧之间的关联。
为什么 sand.ai 要尝试一条新路,给与和主流视频生成都不雷同的 AR 模子呢?
咱们对 sand.ai 团队进行了粗浅的采访,很庆幸赢得了对 Magi-1 更专科、长期的解答。
sand.ai 暗示,他们早在 Sora 发布前就瞻念察到了 AR 模子在视频生成方面的后劲。坚抓 AR,是因为它在大谈话模子上照旧被证明是可膨大的 ( scalable ) ,而 scalable 在很猛进度上决定了这个技巧在异日的上限。
表面上,AR 模子息兵话模子的技巧道路更接近,有契机让谈话和视频长入建模,使笔墨和视频之间的关系就像当今文生图雷同紧密,效果有可能终了一次跃迁。
另一方面,视频跟着时刻的推移经常还有物理和逻辑的相干性。比如篮球如果被篮筐拦住,它就不会再掉落了。
下图是用 Magi-1 生成的
DiT 每帧沉静生成的花样可能会割断这种关联,没准会让篮球径直魂穿篮筐。而 AR 会更好地流露视频内容,不仅内容合理,还会在贯通幅度、速率上理解得更好。
天然技巧道路目下看还莫得系数熟谙,但 sand.ai 笃信 AR 会是异日。跟着技巧的不断迭代,也许就会找到最合理的 AR 模子视频生成的花样。
于是按照他们的说法,在对技巧全面而感性地分析后,sand.ai 在 AR 视频生成高下了注。
其实,在视频生成界限卷到飞起的今天,sand.ai 看似迟到了,但在上限更高的 AR 视频生成上他们却是先发而至。
最迫切的是,sand.ai 这波开源,属实模式拉满。
科技行业的每一次要紧开源,都会带来一场百花王人放。期待 sand.ai 异日的更多居品,以及更多团队在 Magi-1 基础上的立异后果。
撰文:莫莫莫甜甜
Powered by 苍井空A级在线观看网站 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群 © 2013-2024