科技芯资讯是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

首页 >  科技 正文

昆仑芯×飞桨:共创智能计算“芯_生态

juzi 1970-01-01 08:00:00 科技 0℃

WAVE SUMIT2022深度学习开发者峰会于上周成功结束,行业、学术界、政府和高级人工智能工程师在七个平行论坛上分享了他们的优秀技术。本次峰会还设立了“智能硬核生态共创”平行论坛,昆仑核心科技生物计算研发总监郑焕欣应邀作了题为“昆仑核心×飞桨:打造智能计算(核心)生态”的主题演讲。昆仑核心适合百度飞桨等主流框架,支持推理和训练场景,生态建设逐步完善,落地丰富的商业场景。作为国内人工智能芯片领域的先驱,昆仑芯科技多年来一直在芯片和智能计算领域影响着行业,致力于与上下游合作伙伴共同打造智能计算“核心”生态。以下内容来自演讲录音:你好,我是昆仑核科技的郑焕星。昆仑核心科技是一家人工智能芯片公司,于2021年4月完成了独立融资,估值约为130亿元。该公司的前身是百度智能芯片与架构部门,是一家在真实商业场景中深入挖掘AI加速领域十余年,在架构、芯片实现、软件系统、场景应用等方面都有深度积累的AI芯片公司。昆仑核心技术研发实力雄厚,团队成员具有世界一流的学术背景,提出了100%自主研发的通用AI计算处理器核心架构昆仑核心XPU,研究成果还在Hot Chips、ISSCC等国际顶级学术会议上成功展示。在落地的实施中,昆仑核心一代已经部署了2万多台进入百度搜索引擎、小等业务,是唯一经历过互联网大规模核心算法测试的云AI芯片产品。昆仑酷睿2代采用7nm工艺,并于2021年8月开始量产。更先进的昆仑核心三代、自动驾驶芯片等众多产品已经开始研发。随着人工智能变得越来越普遍,对计算能力的需求也在增加。在这个时代背景下,昆仑核心的愿景是“成为一家突破性的、全球领先的智能计算公司”,为AI的发展提供计算能力。昆仑核心在AI芯片上已经有了十多年的开发经验。2011年,我们启动了FPGA AI加速器计划,到2015年部署了5,000台,到2017年部署了超过12,000台,是业界最大的。2017年发布自主架构核心XPU。2018年推出昆仑核心。2020年昆仑核第1代大规模展开;2021年开拍核第2代。

昆仑核心的硬件架构和两代产品与GPU的开发过程不同,昆仑核心一代是在AI开发相对成熟的时候批量生产的,在设计阶段更好地了解AI场景,提供更多加速的计算单元,保留足够的通用计算单元。最后,我们将获得更好的性价比。SDNN-软件定义的神经网络引擎是一个辅助计算单元,旨在加速卷积和矩阵乘法。集群是通用计算组件。它也是业界首批支持GDDR6的制造商之一。我们的共享内存片上共享内存有效地确保了对计算单元的高并行性、低延迟访问。提供高达200GB/秒的芯片间互连带宽,有效提高大规模分布式培训的数据传输效率,减少通信延迟。支持PCIe第4代接口,双向带宽高达64GB/s。

这是我们的软件架构图:在应用层,它支持训练推理科学计算;在框架层,除了深度协作PaddlePaddle之外,它还支持TensorFlow、PyTorch等。它提供了丰富的SDK,包括编辑器、图形引擎、高性能运算符库、高性能通信库和驱动程序。在环境部署方面,它支持公共云服务、智能计算中心、智能边缘设备等。

这是我们的研发途径,核心1代有14个过程,核心2代有7个过程,其他,我们的核心3代,核心4代都在研发途径。

昆仑酷睿第一代产品有两种形式,其中K100是K200的一半版本,主要用于边缘。昆仑核心2代产品中,R200AI加速卡主要用于推理,支持INT8/INT16/INT32/FP16/FP32等精度。昆仑核心R200AI加速器卡支持视频编解码器功能。R480-X8AI加速器组是一个8卡培训解决方案,可提供200GB/s的芯片到芯片互连带宽。综上所述,昆仑核两代具有以下特点:1.通用计算能力显著增强,可灵活支持AI算法的演进,提高资源投入效用;2.硬件虚拟化提高AI资源的利用率。3. AI数据并行和模型并行的高性能分布式AI系统,加速高速数据交换。在介绍了硬件参数之后,让我们来看看昆仑核心软件参数。以R200AI加速卡为例,与行业主流产品相比,典型AI负载性能提高了约1.5倍,GEMM矩阵乘法性能提高了1.7倍,BERT自然语言处理性能加速比提高了1.4倍。对于Transformer类也有同样的效果。Yolov3和Yolov5的速度提高了1.3倍。ResNet50视觉分类算法快1.2倍。昆仑核心AI计算能力,原被称为百度智能芯片与架构部,自然对互联网AI应用有着深刻的理解。以百度的搜索场景为例,我们已经实现了1万多个部署,其中包括DeepFM、Wide&Deep等飞行桨的协同优化模型。此外,包括百度在内的许多互联网公司在智慧城市领域都有着出色的落地性能,采集视频流,通过芯片编解码器获取图像,对图像进行人脸搜索和对比。此场景主要基于CV类算法,包括ResNet50、MobileNet-v3、Unet、Yolov3-DarkNet53和SSD-ResNet34等协作优化模型。工业质检现场,高清工业摄像机拍摄零件照片进行质检。一台配备国产人工智能计算机来代替人工质检的质检设备,可以在14个月内节省大量人力,收回成本。同时,“5G +AI+工业互联网”解决方案将极大提升工厂整体智能化水平,帮助企业减少损失,提高10%左右的产量。在这个方向上,我们与Flyprolls合作开发了Yolov3-DarkNet53和SSD-ResNet34。目前,国内最先进的生物计算领域已经将硬件适应基因测序算法Blast和蛋白质折叠预测算法,并取得了良好的加速比。综上所述,我们为不同行业的AI应用落地场景提供了不同的解决方案,如互联网、智慧城市、智慧产业、生物计算、智慧金融、智慧政府、智慧计算中心、智慧交通等。综上所述,昆仑核心技术最独特的优势在于:百度搜索引擎20000多个部署在小型等业务,云AI芯片、产品可用性、可靠性、稳定性和鲁棒性得到了验证,同时也证明了团队在芯片架构、软件栈和工程系统层面的技术实力。此外,昆仑核心还可以灵活地支持多种AI场景,如视觉、语音、NLP和推荐。不仅如此,昆仑核心还支持加速算法,如HPC和生物计算。

Tags: 昆仑 核心