微软对人工智能(AI)的投入是众所周知的。从Windows的AI助手Copilot到对OpenAI的巨额投资,微软始终站在AI发展的前沿。最近,一项新专利揭示了微软可能正在开发的一项由Copilot驱动的功能,这项功能能够将实时音频转换为图像。

专利细节
美国专利和商标局(USPTO)在2024年10月10日公开了一份长达20页的文档,描述了一个AI系统,该系统能够将实时音频转换为图像。这项专利最初于去年4月5日提交,微软在文档中描述了这个系统如何将实时音频(如会议中的对话)转换为文本,然后使用语言模型进行总结,并基于这个总结创建AI生成的图像。
专利概述
- 发布日期:2024年10月10日
- 提交日期:2023年4月5日
- 专利内容:将实时音频(如会议或会议中的讲话)转换为文本记录,然后使用语言模型进行总结,最后生成AI图像。


技术实现
在这一过程中,用户的语音通过麦克风被捕获并转换为文本。接着,文本被分割成短语,每个短语都由语言模型进行总结,以生成图像生成的提示。预计这项功能将被集成到Microsoft Teams中,AI生成的图像将实时显示在屏幕上,与实时音频同步。

技术流程
- 音频捕捉:用户的声音通过麦克风被捕捉并转换为文本记录。
- 文本处理:文本记录被分割成短语,每个片段使用语言模型进行总结,生成图像生成的提示。
- 图像生成:利用生成的提示,系统创建一个AI生成的图像。
应用场景
微软预计,当图像用于辅助口头交流时,可以帮助澄清概念并使其更容易理解,这对于视觉辅助学习者尤其有益。Teams中的Copilot是Microsoft 365 Copilot订阅计划的一部分,主要面向企业用户。除了Teams,Copilot还集成在Word、PowerPoint、Excel、Outlook等所有MS365应用中,并提供企业级安全和Copilot Studio。
专利与实际产品
尽管拥有专利技术,但这并不意味着相关功能很快就会推出。在科技行业,公司常常提交专利申请以防止竞争对手拥有相同技术,因此,对于这项专利的实际应用,我们应保持谨慎的态度。微软的这一新专利展示了其在AI领域的持续创新和探索,但实际的产品化可能还需要时间。(来源)
评论