“I”:视频输入。GPT-4V对视频的理解还相当原始,因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系,但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。
开源模型的组合将击败最好的私有模型。
2. Stability AI会关闭。近几个月的人才流失和持续走高的烧钱率使其陷入困境。
有三件事不会变
评论区有网友提到,现在Midjourney生成的风格更偏向于艺术创作,而不仅仅是简单的还原。一些人甚至开玩笑说,现在不需要出去旅行了,只要付费订阅Midjourney账号就可以了。