您好,欢迎进入成都孚立特科技有限公司!
24小时咨询热线:138 8000 4461
新闻中心NEWS

致力于产品的良好用户体验、有效的网络营销效果而努力

在笔记本电脑本地跑大模型,英特尔要让生成式AI无处不在

发布时间:2023-06-13人气:211


芯东西 6 月 12 日报道,过去一年,从 Stable Diffusion、ChatGPT 到大语言模型等,生成式 AI 技术发展迅速。芯片巨头英特尔在生成式 AI 热潮中能发挥的作用受到业界关注。

近日,英特尔院士、大数据技术全球 CTO 戴金权与芯东西等媒体进行交流,谈到英特尔一直以来希望能够将 AI 普适化,也希望通过对算力优化、计算能力的提升来支撑生成式 AI 无所不在。

为了 AI 可以无所不在,计算也要无所不在。英特尔的计算设备或者说计算能力本身就是无所不在的,无论是笔记本电脑上的 CPU、集成显卡、独立显卡,还是数据中心里的至强服务器,都实现了广泛存在,可被视为一个通用计算的能力。戴金权说,如果英特尔能做到利用 XPU 技术,在这些通用的、无所不在的计算上提供 AI 能力,那便可能真的可以做到 AI 无所不在。

他告诉芯东西,用普通的笔记本电脑或台式机,在英特尔第 12 代酷睿处理器上跑大语言模型,仅用集成显卡,已经能跑出非常好的效果。理论上,10 代和 11 代酷睿处理器也可以支持跑本地跑生成式 AI 应用。如果用英特尔独立显卡,则能实现更好的性能提升。

一、目标是生成式 AI 普适化,从本地到云端提供算力支撑

整体来看,生成式 AI 有两类模型,一类是像 Stable Diffusion 这样的扩散模型,可以生成图片、音频、视频等等;另一类是大语言模型,从语言模型角度来生成文本、对话等等。两种类型模型的需求不同,扩散模型普遍计算需求更高,大语言模型很多时候无法放到一张显卡上跑,因此更多需要内存的带宽和大小能够支撑。

戴金权说,英特尔需对不同的计算要求、不同的内存要求、对 Transformer 注意力机制算子的要求,以及稀疏化、低精度等对模型的压缩,通过多样化技术对模型部署进行更好的支持。多模态也是一个非常重要的方向,*终大模型追求的是不仅能处理文本,还能处理图片、视频等等,不再是一个单一的算子,而是很多算子在模型里同时存在,这带来了一些技术上的挑战。

" 英特尔的目标是希望能够将生成式 AI 普适化,不仅是从开源、开放的模型和软件的角度,计算能力的角度,从笔记本电脑到台式机,到数据中心,从处理器到专用加速器,如何利用像 OneAPI 的架构,在上面整个的软件栈提供这样的能力,这是英特尔可以做到的比较独特的地方。" 他谈道。

据他分享,英特尔希望做到 AI 无所不在,不管是在本地端、云端、边缘端,只有每一颗英特尔的芯片都可以提供这样的智能计算能力来支撑这些生成式 AI,才真正做到 AI 无所不在。

从硬件来看,英特尔可以从非常小尺寸的设备扩展到大规模的数据中心 XPU 架构,能够支持未来生成式 AI 无所不在的需求。从软件来看,当前主流大模型大多基于 Transformer 架构,业界对内存的需求和如何对其进行更好地加速做了大量的研究工作。

戴金权认为,Transformer 这样的大模型可能会有更大的尺寸和多模态融合的需求,包括输入上下文的扩展,将来可能是今天的几倍、几十倍甚至更高。这会对软件算法的设计,比如低精度、低比特、压缩、稀疏化、注意力机制设计等产生不同的需求。所以,英特尔认为,软件算法设计的多样化,是将来有助于满足生成式 AI 和大语言模型的算力需求的重要组成部分。

这些需求可能会进一步引导英特尔将来的训练、推理,以及芯片的架构等。此外,大模型还在快速发展中,不同算法级别的发展,以及在不同场景适配的发展,都会给包括 AI 芯片在内的所有计算芯片、计算能力带来深远影响。

二、笔记本电脑本地畅跑大模型,仅用集显 20 秒生成一幅中国画

据戴金权分享,在支持生成式 AI 计算上,英特尔主要要做两方面的工作。

一方面是硬件工作,在英特尔的 XPU 平台上,比如一个笔记本电脑也可以看到有一个强大的 XPU 平台,有 CPU、集成显卡、独立显卡,下一代还将有 VPU,利用不同的加速来对生成式 AI 进行运算的支撑。数据中心端同样如此,第四代英特尔至强可扩展处理器内置的矩阵运算加速器(英特尔 AMX),还有英特尔数据中心 GPU Ponte Vecchio(PVC)、Gaudi 系列专用 AI 加速器。

对消费者而言,目前笔记本电脑本地跑 7B(70 亿参数)大语言模型的运行速度已有很高提升。一般入门级的大语言模型在 6B-7B 的参数规模,13B(130 亿参数)的模型算是其中参数较大的,能以飞快速度完成对话、回答用户问题。

除了大语言模型之外,目前英特尔可以将 Stable Diffusion 运行在 12 代酷睿笔记本电脑上。戴金权演示了用其实验室的一台笔记本电脑本地运行 Stable Diffusion,通过利用 iGPU(集成显卡),差不多 20 秒内就生成了 1 张中国画风格的猫。这可以在任何一台普通英特尔笔记本电脑上实现,如果使用 dGPU(独立显卡),三四秒就能生成图片。

在数据中心端,英特尔至强可扩展处理器是一个面向通用服务器的 CPU 产品,要想做到 " 生成式 AI 无所不在 ",它必然需要与很多数据库、和 CIM 系统结合起来。戴金权展示了在至强处理器上跑 65B(650 亿参数)大语言模型的视频。

另一方面,更关键的是软件工作。

当需将生成式 AI 或大模型映射到不同的计算能力上时,需要通过优化的编译技术的能力自动生成底层的*优的、*有效率的代码。

英特尔利用软件技术发挥硬件的计算能力,并致力于拥抱开源以及 AI 开放社区,包括在 TensorFlow、PyTorch、Hybrid Bonding 等开源软件方面与业界有广泛合作,如与 OpenAI 合作的 AI 编译器 Triton,以及和微软合作优化的做大规模分布式训练的软件栈 DeepSpeed 等等。

此外,英特尔在低精度对模型的压缩上,可以更加高效地部署大语言模型,在社区里可以看到非常多的 int3、int4、int8 等低比特计算,通过软硬件的协作,英特尔才可以提供这样的运算能力。

针对英特尔的平台和生成式 AI 模型,英特尔与 Hugging Face 在 Bloom 等开源模型上做了很多性能优化工作。几个月前,Hugging Face 英特尔利用 Gaudi 2 加速器对 BLOOMZ 176B 进行了优化和评估,结果显示,与 8 张英伟达 A100 相比,用 8 张 Gaudi 2 运行推理,速度要快 20% 以上。

英特尔还与 Hugging Face 在 Stable Diffusion 上展开合作,在第四代英特尔至强可扩展处理器上,利用 AMX 高级矩阵扩展来进行矩阵加速,可以做到在 5 分钟内微调一个属于自己的 Stable Diffusion 模型,4~5 秒进行一个推理。

戴金权谈道,英特尔内部关于 AI 的工作,无论是数据、模型、应用,都有一个 " 负责任的 AI" 的流程,其中定义了如何消除偏见、如何使用正确的数据等;另一方面,大语言模型在实现对话、影响生产力流程起的同时,也会带来数据安全和隐私问题。

英特尔在数据安全和隐私计算方面做了很多相关工作,借助英特尔 TDX、SGX 等硬件级安全技术,加上软件层构建的面向大数据分析和机器学习的隐私计算平台(BigDL PPML, Privacy Preserving Machine Learning),能避免数据出域,降低数据泄露风险。英特尔实验室(Intel Lab)也做了探测判别 Deepfake 的研究,通过机器学习方法来判断数据虚假性的问题等。

此外,本地部署生成式 AI、大语言模型,本身就对数据、模型的隐私形成保护。

结语:软硬件协同加速生成式 AI,推动低门槛迈向未来计算

戴金权谈道,对于计算产业来说,*重要的是如何提供计算能力,以支撑上层的应用、算法。英特尔提出了 " 软件定义、芯片增强 ",即用户需要用软件来定义自身需要什么样的计算能力,再从硬件角度来做更好的增强和支持。

从英特尔消费级 CPU、集成显卡、独立显卡,到服务器端采用的至强可扩展处理器,以及在数据中心 GPU、在 Gaudi AI 加速器上使用生成式 AI,英特尔正将大语言模型和英特尔无所不在的计算能力相结合,提供一些全新的生成式 AI 体验。

在此之上,英特尔致力于打造开源开放的生态系统,从开源软件工具以及类似于像 OneAPI 这样的开放标准,为客户的笔记本电脑处理器、数据中心处理器、加速器做到针对不同场景的、对生成式 AI 的支持,让开发者更轻松构建一个软件。

除了被用于消费端内容创作和工作场景中的提高生产力外,生成式 AI 也日渐在 AI for Science 领域发挥作用。英特尔日前公布了拥有 1 万亿个参数的生成式 AI 大模型 Aurora genAI,主要面向生物学、医学、大气科学、化学、天文学等科研领域。


标签:
本文网址: http://www.scflt.com/?industry/168.html

成都孚立特科技有限公司扫一扫咨询微信客服
在线客服
服务热线

服务热线

138 8000 4461

微信咨询
这里是您的网站名称
返回顶部