传媒行业3D:AI的下一个涌现
一、文生2D复盘:“千万级数据和亿级数据”是关键
我们认为亿级数据量将是3D出现涌现能力的一个重要突破节点。
三个重要节点值得关注。
1)领跑模型出现:扩散模型逐渐领先于GAN、自回归模型,成为2D生成模型中主流模型;
2)首个千万级2D数据集出现:ImageNet数据集已拥有22000类约1500万张标注图像,基于ImageNet的比赛ILSVRC诞生了AlexNet、VGG、GoogleNet等经典的深度学习网络模型;
3)破亿数据集的出现:LAION数据集通过爬虫突破上亿数据量,Stable Diffusion基于LAION-5B的子集训练得到。
二、3D研究框架:已破千万级数据集,OpenUSD加速数据集扩张
未来,3D的发展将沿着如下思路进行:OpenUSD统一数据表现形式和文件格式,使得3D数据集的量得以大幅提升,而更大数据集和更好模型相互促进发展。
1)首个千万级数据集出现:3D生成出现了具有统治地位的NeRF模型和千万级数据集Objaverse-XL,3D发展到达2D图像的“2020-2021年”。
2)数据集持续扩大:USD简化3D文件访问,统一文件格式,提供了发展加速度。
三、文生3D的方向-扩散模型+NeRF
1)目前4类3D生成路径从易到难:扫描得3D、视频得3D、图生3D、文生3D。
2)文生3D是终极状态:文生3D使得3D资产从“专业的”变成“大众的”,是其他三种路径的最终形态。NeRF在3D生成模型领域具有统治地位。
3)近两年,谷歌、英伟达、OpenAI、Meta、Apple公司都有“AI+3D”布局,对于3D的探索路径主要集中在成熟度不高的图片生成3D和文生3D领域。
四、文生3D成本测算:迭代次数万级以上
1)2D的迭代次数:以2D为例,一般情况下,2D场景迭代20-50次左右即可实现要求。
2)3D的迭代次数:单个3D的AI生成目前迭代约30000次左右,选择文生3D模型-Zero123在单个3090显卡上运行,单场景3D资产需要3-4小时左右生成。
3)一个3D资产生成算力成本约5元左右。假设未来迭代速度变快2倍,生成一个3D资产算力花费约2.6元左右,相比于市场3D资产购买费用,有巨大价格优势。
报告内容节选如下: