Windows 11 新增图像描述功能，本地 AI 再进化

微软正在不断将AI能力整合进 Windows 11 系统中。虽然其中一些功能对普通用户来说意义有限，甚至可能带来干扰，但最新加入的“描述图像”功能却是一个例外——它不仅实用，还具备良好的隐私保护机制。

目前，这项新功能已经面向 Dev 频道的预览体验计划测试用户推出，在最新的 Windows 11 Insider Preview Build 26200.5702（KB5062653）中首次出现。

“描述图像”被集成在“点击执行”（Click to Execute）菜单中，这个菜单原本就提供了模糊背景、删除对象等便捷工具。现在新增的描述功能允许用户选中一张图片后，系统自动生成一段文字描述，并提供一键复制到剪贴板的功能。

与 Google Lens 或其他图像识别服务不同，这项功能使用的是运行在本地设备上的 AI 模型，所有处理都在本地完成，无需上传图片至云端服务器，从而保障了用户数据的安全性。

要调出“点击执行”菜单，只需同时按下 Windows 键 + Q，或在按住 Windows 键的同时点击鼠标左键。

对于视力受限的用户，“描述图像”功能能够将视觉信息转化为文本，再通过屏幕阅读器朗读出来，提升系统的可访问性。此外，对于需要为图片添加替代文本（alt text）的内容创作者来说，这一功能也非常有用。

例如，在 How-To Geek 上发表文章时，每张配图都需要一个简明准确的替代文本，以便搜索引擎和辅助技术理解其内容。这项功能正好可以协助快速生成这类描述。

值得一提的是，该功能的描述质量与我此前使用的基于 OpenAI GPT 模型的浏览器插件相当接近，而它完全依赖本地模型，响应更快、更安全。

尽管功能本身非常有价值，但目前它只能在搭载特定硬件的设备上运行，也就是所谓的 Copilot+ PC。这些设备通常配备 NPU（神经网络处理单元），以支持高效的本地 AI 运算。

不过从技术角度来看，只要电脑拥有中等性能的 GPU 和足够的内存，理论上也可以运行类似模型。比如，使用 LM Studio 软件下载视觉支持模型（如 Google Gemma 3 4B），将图片拖入聊天界面，就能实现相似的效果。

微软官方表示：“‘点击执行’中的图像描述功能已向搭载骁龙处理器的 Copilot+ PC 用户开放，未来将扩展至 AMD 和英特尔平台。”

除了“描述图像”，此次更新还包括：

部分更新已在之前的 Insider 构建版本中出现，这次是逐步推广的一部分。