微软新专利：实时音频转换为图像的AI系统

微软对人工智能（AI）的投入是众所周知的。从Windows的AI助手Copilot到对OpenAI的巨额投资，微软始终站在AI发展的前沿。最近，一项新专利揭示了微软可能正在开发的一项由Copilot驱动的功能，这项功能能够将实时音频转换为图像。

专利细节

美国专利和商标局（USPTO）在2024年10月10日公开了一份长达20页的文档，描述了一个AI系统，该系统能够将实时音频转换为图像。这项专利最初于去年4月5日提交，微软在文档中描述了这个系统如何将实时音频（如会议中的对话）转换为文本，然后使用语言模型进行总结，并基于这个总结创建AI生成的图像。

专利概述

发布日期：2024年10月10日
提交日期：2023年4月5日
专利内容：将实时音频（如会议或会议中的讲话）转换为文本记录，然后使用语言模型进行总结，最后生成AI图像。

技术实现

在这一过程中，用户的语音通过麦克风被捕获并转换为文本。接着，文本被分割成短语，每个短语都由语言模型进行总结，以生成图像生成的提示。预计这项功能将被集成到Microsoft Teams中，AI生成的图像将实时显示在屏幕上，与实时音频同步。

技术流程

音频捕捉：用户的声音通过麦克风被捕捉并转换为文本记录。
文本处理：文本记录被分割成短语，每个片段使用语言模型进行总结，生成图像生成的提示。
图像生成：利用生成的提示，系统创建一个AI生成的图像。

应用场景

微软预计，当图像用于辅助口头交流时，可以帮助澄清概念并使其更容易理解，这对于视觉辅助学习者尤其有益。Teams中的Copilot是Microsoft 365 Copilot订阅计划的一部分，主要面向企业用户。除了Teams，Copilot还集成在Word、PowerPoint、Excel、Outlook等所有MS365应用中，并提供企业级安全和Copilot Studio。