微软新专利:实时音频转换为图像的AI系统

微软对人工智能(AI)的投入是众所周知的。从Windows的AI助手Copilot到对OpenAI的巨额投资,微软始终站在AI发展的前沿。最近,一项新专利揭示了微软可能正在开发的一项由Copilot驱动的功能,这项功能能够将实时音频转换为图像。

微软新专利:实时音频转换为图像的AI系统插图

专利细节

美国专利和商标局(USPTO)在2024年10月10日公开了一份长达20页的文档,描述了一个AI系统,该系统能够将实时音频转换为图像。这项专利最初于去年4月5日提交,微软在文档中描述了这个系统如何将实时音频(如会议中的对话)转换为文本,然后使用语言模型进行总结,并基于这个总结创建AI生成的图像。

专利概述

  • 发布日期:2024年10月10日
  • 提交日期:2023年4月5日
  • 专利内容:将实时音频(如会议或会议中的讲话)转换为文本记录,然后使用语言模型进行总结,最后生成AI图像。
微软新专利:实时音频转换为图像的AI系统插图1
微软新专利:实时音频转换为图像的AI系统插图2

技术实现

在这一过程中,用户的语音通过麦克风被捕获并转换为文本。接着,文本被分割成短语,每个短语都由语言模型进行总结,以生成图像生成的提示。预计这项功能将被集成到Microsoft Teams中,AI生成的图像将实时显示在屏幕上,与实时音频同步。

微软新专利:实时音频转换为图像的AI系统插图3

技术流程

  1. 音频捕捉:用户的声音通过麦克风被捕捉并转换为文本记录。
  2. 文本处理:文本记录被分割成短语,每个片段使用语言模型进行总结,生成图像生成的提示。
  3. 图像生成:利用生成的提示,系统创建一个AI生成的图像。

应用场景

微软预计,当图像用于辅助口头交流时,可以帮助澄清概念并使其更容易理解,这对于视觉辅助学习者尤其有益。Teams中的Copilot是Microsoft 365 Copilot订阅计划的一部分,主要面向企业用户。除了Teams,Copilot还集成在Word、PowerPoint、Excel、Outlook等所有MS365应用中,并提供企业级安全和Copilot Studio。

专利与实际产品

尽管拥有专利技术,但这并不意味着相关功能很快就会推出。在科技行业,公司常常提交专利申请以防止竞争对手拥有相同技术,因此,对于这项专利的实际应用,我们应保持谨慎的态度。微软的这一新专利展示了其在AI领域的持续创新和探索,但实际的产品化可能还需要时间。(来源

评论