NVIDIA联手Google推出Gemma语言模型,助力AI创新

近日,NVIDIA与Google强强联合,共同宣布在全球所有NVIDIA AI平台上推出针对Gemma的优化功能。Gemma是Google推出的最新一代轻量级2B和7B开放语言模型,凭借其卓越的性能和创新性,有望降低运营成本并加速特定领域的用户案例创新。

共耀光芒:Google Gemma 优化后可在 NVIDIA GPU 上运行

共耀光芒:Google Gemma 优化后可在 NVIDIA GPU 上运行

此次发布的优化功能得益于NVIDIA TensorRT-LLM开源库的强大支持,后者专为提升大型语言模型推理性能而生。通过与NVIDIA团队的紧密合作,Gemma得以在数据中心、云平台和配备NVIDIA RTX GPU的PC上实现更高效的运行。这一举措将使得全球超过1亿台搭载NVIDIA RTX GPU的高性能AI PC成为潜在的开发目标。

对于开发者而言,他们现在可以在配备NVIDIA GPU的云端环境中运行Gemma,享受高达141GB HBM3e显存和4.8TB/秒的惊人速度。据悉,Google计划在今年内部署此类实例。同时,企业级开发者还可以充分利用NVIDIA丰富的工具生态系统,如基于NeMo框架的NVIDIA AI Enterprise和TensorRT-LLM等,对Gemma进行微调并将其应用于实际的生产场景中。

为了让更多开发者深入了解TensorRT-LLM如何助力Gemma实现更快的推理速度以及其他相关信息,我们提供了包含多个模型文件和经过TensorRT-LLM优化的FP8量化版本的Gemma模型供下载。此外,您还可以直接在NVIDIA AI Playground网站上通过浏览器体验Gemma 2B和Gemma 7B的魅力。

值得一提的是,备受瞩目的Chat with RTX技术演示版也将很快支持Gemma。这项技术结合了检索增强生成(RAG)和TensorRT-LLM软件的优势,将为用户带来在本地Windows RTX PC上运行的生成式AI功能。借助Chat with RTX,用户可以轻松地将PC上的本地文件与大语言模型相连接,并利用个人数据进行个性化的聊天机器人定制。由于模型在本地运行,生成的结果将更加迅速且用户数据将得到更好的保护。相较于依赖基于云的LLM服务,Chat with RTX允许用户在本地PC上处理敏感数据而不必担心数据泄露或与第三方分享的风险。

本文主题词:

谷歌gpu,谷歌优化,googlecloudgpu,谷歌系统优化,googlespeedinsights具体优化,谷歌优化效果怎么样,谷歌优化软件,谷歌gpu补丁,谷歌优化多少钱,谷歌gpu服务器

点赞(62) 打赏

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部