图片:Morsa Images/Getty Images 微软推出了 Kosmos-1,它被描述为一种多模式大型语言模型 (MLLM),它不仅可以响应语言提示,还可以响应视觉提示,可用于一系列任务,包括图像字幕、视觉问答、和更多。 O...
图片:Morsa Images/Getty Images
微软推出了 Kosmos-1,它被描述为一种多模式大型语言模型 (MLLM),它不仅可以响应语言提示,还可以响应视觉提示,可用于一系列任务,包括图像字幕、视觉问答、和更多。
OpenAI 的 ChatGPT 帮助普及了 LLM 的概念,例如 GPT(生成式预训练转换器)模型,以及将文本提示或输入转换为输出的可能性。
虽然人们对这些聊天功能印象深刻,但 LLM 仍在努力应对多模式输入,例如图像和音频提示,微软的 AI 研究人员在一篇名为“语言不是你所需要的全部 :使感知与语言模型保持一致”的论文中争论道。该论文表明,要超越类似于 ChatGPT 的能力,实现通用人工智能 (AGI),需要在现实世界中进行多模态感知或知识获取和“扎根”。
“更重要的是,解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用,例如多模态机器学习、文档智能和机器人技术,”该论文说。
Alphabet 旗下的机器人公司 Everyday Robots 和 Google 的 Brain Team去年展示了接地的作用,当时使用 LLM 让机器人跟随人类对物理任务的描述。该方法涉及将语言模型置于给定现实世界上下文中可能执行的任务中。微软还在其 Prometheus AI 模型中使用了基础,将OpenAI 的 GPT 模型与 Bing搜索排名和搜索结果的真实反馈相集成。
微软表示其 Kosmos-1 MLLM 可以感知一般模式、遵循指令(零样本学习)和在上下文中学习(少样本学习)。“目标是使感知与法学硕士保持一致,以便模型能够看到和说话,”该论文说。
Kosmos-1 对提示的输出演示包括一张小猫的图像,一个人拿着一张纸,嘴角挂着微笑。提示是:“解释为什么这张照片很有趣?” Kosmos-1 的回答是:“这只猫戴着一个能让它微笑的面具。”
其他例子也表明了这一点:从图像中感知到网球运动员扎着马尾辫;在 10:10 读取钟面图像上的时间;从 4 + 5 的图像计算总和;回答“什么是 TorchScale?” (这是一个 PyTorch 机器学习库),基于 GitHub 描述页面;从 Apple Watch 表盘读取心率。
每个示例都展示了像 Kosmos-1 这样的 MLLM 在多种情况下自动执行任务的潜力,从告诉 Windows 10 用户如何重新启动他们的计算机(或任何其他带有视觉提示的任务)到阅读网页以启动网络搜索、解释来自设备的健康数据、为图像添加字幕等。然而,该模型不包括视频分析功能。
研究人员还测试了 Kosmos-1 在零样本 Raven IQ 测试中的表现。结果发现“当前模型与成年人的平均水平之间存在巨大的性能差距”,但也发现其准确性显示了 MLLM 通过将感知与语言模型对齐来“在非语言环境中感知抽象概念模式”的潜力。
考虑到微软计划使用基于 Transformer 的语言模型使 Bing 成为谷歌搜索的更好竞争对手,对“网页问答”的研究很有趣。
“网页问答的目的是从网页中找到问题的答案。它需要模型理解文本的语义和结构。网页的结构(如表格、列表和HTML布局)起着关键作用在信息的排列和显示方式中的作用。这项任务可以帮助我们评估我们的模型理解网页语义和结构的能力,”研究人员解释道。