微软与英伟达合作开发 TensorRT-LLM,旨在提升装备 RTX 显卡的 Windows 设备用户体验。新版本支持大型语言模型,简化 AI 工作负载处理。TensorRT-LLM 库可提升模型性能,提供 Python API,简化开发。AI Workbench 工具包助力 AI 模型开发。DirectML 增强功能加速 AI 模型,设立新性能标准。TensorRT-LLM 更新提升推断性能,扩展模型支持范围,促进 Windows 11 PC 上 AI 的发展。
微软推出最新智能助手 Copilot 后,正加速 Windows 11 与生成式 AI 技术的融合。在西雅图举办的 2023 年 Ignite 开发者大会上,微软宣布将与英伟达合作开发 TensorRT-LLM,旨在提升配备 RTX 显卡的 Windows 桌面和笔记本电脑用户体验。
这一新版本将支持新的大型语言模型,简化处理高需求的 AI 工作负载。值得一提的是,它与 OpenAI 的 Chat API 兼容,意味着在配备至少 8GB 显存的 RTX 显卡的 PC 和工作站上,可以本地执行相关任务,无需依赖云计算。
英伟达的 TensorRT-LLM 库已于上月发布。据悉,此库可利用 RTX 显卡上的 Tensor 核心,提升大型语言模型的性能。它提供了 Python API,使开发者能够定义和快速构建 TensorRT 引擎,无需深入了解 C++ 或 CUDA。
随着 TensorRT-LLM v0.6.0 的推出,AI Workbench 的引入将简化定制生成式 AI 项目的流程。AI Workbench 是一个集成工具包,有助于快速创建、测试和定制预训练的 AI 模型和语言模型。该平台也将帮助开发者简化协作和部署过程,确保模型开发的高效性和可扩展性。
英伟达和微软还计划发布 DirectML 的增强功能,以支持 AI 开发者。这些优化将加速基本 AI 模型,如 Llama 2 和 Stable Diffusion,提供更多跨供应商部署选项,并树立新的性能标准。
新的 TensorRT-LLM 库更新将显著提升推断性能,速度提升五倍。此外,它还将支持更多流行的大型语言模型,如 Mistral 7B 和 Nemotron-3 8B,扩大在更广泛 Windows 便携设备上的应用范围。
将 TensorRT-LLM 与 OpenAI 的 Chat API 整合到 Windows 中,通过新的接口,将使众多 AI 驱动项目和应用能够在 RTX 显卡驱动的 PC 上本地运行,减少对云服务的依赖,并保障 Windows 11 PC 上的数据安全。
AI 在 Windows 11 PC 上的发展前景广阔。随着 AI 模型的普及和开发者不断创新,利用英伟达的 RTX GPU 或将成为颠覆游戏规则的关键。但对于微软而言,要完全释放 Windows PC 上 AI 的潜能,是否还需更多努力,目前仍不得而知。