算能科技在今年初推出了首款64位多核服务器CPU SG2042,该处理器基于64个高性能RISC-V内核,主频2GHz,拥有64MB系统缓存。该芯片支持两路芯片级联,适用于云计算、人工智能、数据分析、网络和存储工作负载,以及数据密集型和I/O密集型的工作负载。
SG2042推出后,算能科技决定基于这颗芯片开发服务器,利用RISC-V的开源特性,该公司借助开源社区的力量来进行开发。日前,在第三届滴水湖中国 RISC-V 产业论坛上,算能科技产品总监陆吉年详细介绍了这一过程。
【资料图】
首先是基础硬件系统的设计。算能科技把公司墙全部打碎,把所有的开源社区直接对接进来,并建立了不同的工作组,用这样的方式来加速设计。陆吉年表示,每天晚上都有不同的“小可爱”给他们提供信息和意见,这为前期开发提供了很多帮助。
接着是硬件系统的优化。算能科技做了100块EVB,送了87块给中国所有的社区,包括主流的社区和团体。他们和Milk-V合作做了Pioneer的两块板子,根据反馈,在第二版当中增加了显卡和M2的硬盘存储接口。在拿到第一块板子后,5个月的时间就进行了两次迭代。解决了PCle速率的问题(从Gen3.0升级到支持Gen4.0),以及塔式风扇在重量和运输方面的问题。为了让更多的人用这块板子拓展开源社区,算能科技向RISC-V基金会捐赠了50台Pioneer box。
图:算能科技捐赠的EVB
在这一过程中,软件优化的速度也非常快——仅仅2个月时间,该系统的Kernel已经升级到6.1.46,适配所有的操作系统。其他还包括SPD的适配、BMC子系统的移植等服务器相关课题,例如支持DIMM,根据SPD自动适配支持的DIMM型号;移植Linux boot V0.9,解决了硬盘启动问题;适配了基于AST2600和openBMC的BMC子系统。
针对RISC-V+AI这一主要应用场景,算能科技和山东大学的智能创新研究院合作,测试了TPU卡和CPU联合的问题,面向SG2042移植了UEFI开源版本EDK II,打通了应用通路。
开源社区的帮助为软件生态提供了支持,在软件帮助下,SG2042平台的SEPCInt2006性能提升了20.1%。另外,通过PerfXLab的合作完善了数据库,籍此打通典型场景并建立起基础体系。基于SG2042运行《我的世界》取得了很好的效果。
值得一提的是,在开源社区大咖王贺的帮助下,算能科技移植了所有大模型框架,为高性能大模型推理框架inferllm添加了RISC-V平台的支持,让SG2042可以流畅地运行ChatGLM2、Llama2、Alpaca、baichuan等大模型。
至此,条件成熟了,算能科技开始和山东大学合作推出了他们第一个服务器。该服务器级联两颗SG2042,每颗CPU带4个DIMM,内置AI卡打通了算力,配置有搭建原型的系统资源。之后,该公司将8台设备组联成一个机柜,用三周时间完成搭建和调试。今年9月底,算能科技将向山东大学智能创新研究院交付第一台基于RISC-V的商业服务器集群(6个机柜,48个节点)。
图:算能科技推出的首款RISC-V服务器
这一切只用了7个月的时间!从中可以看到RISC-V开源社区的力量,其本质就是生态的力量!
标签: