基于英特尔® 傲腾™ 持久内存200系列的IPFS方案实践

首页 > 解决方案 > 云计算与数据中心解决方案 > 方案产品 > 傲腾持久内存200系列

摘要

背景介绍

解决方案介绍

客户收益

马上获取定制方案

摘要

　　英特尔® 傲腾™ 持久内存是一款革命性的持久内存产品，补齐了DRAM与磁盘之间的需求缺口，重构内存/存储层次架构，集大容量、经济性和持久性于一身，帮助用户优化数据中心基础设施，满足大数据分析、数据库、云与虚拟化、分布式存储等多种应用场景需求。为了帮助用户通过傲腾持久内存来实现应用创新优化，助力企业业务系统实现性能突破，浪潮发布了基于英特尔® 傲腾™ 持久内存的多种场景方案，本方案是基于英特尔® 傲腾™ 持久内存200系列的IPFS应用方案。

背景介绍

　　作为一种面向全球的点对点分布式文件系统，星际文件系统（Inter-Planetary File System，IPFS）凭借去中心化、开放、安全性与透明性高等优势，已经成为一个流行的网络存储协议。它是一个类似 HTTP 协议的互联网底层协议，已被成功应用于数据存储、文件传输、网络视频、社交媒体、去中心化交易等各个领域。在这些技术趋势的推动下，基于 IPFS 网络的相关 Filecoin（FIL）产业也在不断壮大。

　　为了推动 IPFS 行业的发展，并助力 IPFS 服务提供商获取更多的价值，浪潮与英特尔协作，推出了搭载第三代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存200系列的基于区块链的高算力分布式存储解决方案。该解决方案具备高性能、低总体拥有成本（TCO）、高扩展性、高稳定性与可用性等优势，能够更高效地推动 IPFS 业务的拓展与应用。

　　挑战：化解 IPFS存在的性能瓶颈

　　数字技术的创新与数字经济的快速发展带来了存储需求的爆发式增长，这让基于 IPFS 的持久且分布式存储应用获得了巨大的增长空间。业界人士预计，当前 IPFS 在世界上拥有的总有效算力将在未来5-6年内，从2.959EiB提升到1ZiB。这意味着IPFS Filecoin业务在可预期的未来，将会带来高额且稳定的收益。

　　对于IPFS Filecoin业务，构建分布式计算与存储集群至关重要。要满足此需求，服务提供商不仅需要部署性能强大、性价比突出的CPU、GPU、存储、内存等核心硬件，还需要基于IPFS应用需求对系统进行深度优化与定制，以提供更加简化的运维，更高的稳定性与可用性，在提升IPFS Filecoin产出的同时，降低系统不可用所带来的损失。

　　其中服务提供商在构建IPFS Filecoin解决方案的过程中，面临提供大容量且经济的内存池问题，IPFS Filecoin在进行数据读写时，数据将暂时存储在内存上，因此内存容量的大小将直接影响IPFS Filecoin的读写性能和整体产出。但与此同时，大规模的IPFS Filecoin集群意味着需要构建海量空间的内存池，将带来巨大的成本压力。

解决方案介绍

　　英特尔® 傲腾™ 持久内存创新性解决方案新增内存扩展方式专为打破服务器内存容量限制而优化，补齐了DRAM内存与磁盘之间的需求缺口，打造高性能、大容量的持久内存层，有助于更加高效地挖掘数据的潜在价值。

　　图1：英特尔® 傲腾™ 持久内存存储层

　　英特尔®傲腾™持久内存新一代产品200系列(Barlow Pass，即BPS)基于第三代英特尔®至强®可扩展处理器优化，容量有128GB、256GB和512GB三种。相对于上一代100系列产品，Ice Lake平台单颗CPU最大可支持到4TB容量，内存频率提升至3200MT/Sec，单通道平均性能提升25%。

　　英特尔®傲腾™持久内存200系列具有两种工作模式：内存模式（MM）和App Direct 模式（AD）

　　内存模式，CPU内存控制器将所有英特尔®傲腾™持久内存200系列视为易失性系统内存（无数据持久性），以更低的成本提供更大的内存容量，无需更改应用，并且性能接近DRAM。

　　App Direct模式，能够实现较大内存容量和数据持久性，支持持久内存编程，软件和应用能够直接与英特尔®傲腾™持久内存通信，降低了堆栈的复杂性，并充分利用缓存一致性的字节可寻址特性，将持久内存的使用扩展到本地节点之外；App Direct模式提供一致的低延迟，同时支持更大的数据集。

　　图2：英特尔®傲腾™持久内存工作模式

　　本方案使用英特尔® 傲腾™ 数据中心级持久内存扩展内存容量，解决服务器内存不足的问题，可以显著降低企业TCO。本方案采用傲腾持久内存的内存模式，内存模式具有容量大、成本低、易用性等特点。设备即插即用，不需要客户业务系统做任何修改。

　　方案验证：英特尔® 傲腾™ 内存性能优势显著

　　浪潮针对业界主流的P2分离架构（图3）进行方案验证，根据每台服务器P1阶段每天的64G扇区吞吐量作为衡量指标，选择3种配置方案进行比较（如表1），使用针对Intel cpu优化过的lotus进行压力测试，该版本是在开源版lotus基础上进行了优化。

　　图2：P2分离架构

　　本次BPS方案测试分为2T DRAM方案、2T BPS方案和4T BPS方案，根据Intel优化版，一个扇区任务需要3个核心，且64G扇区在P1阶段需占用2倍内存，因此，P1阶段CPU核心数和内存容量容易出现瓶颈，2T BPS方案使用64G扇区14任务并行，此时占用42个核心，需要在每颗CPU下均挂载2个NVMe。4T BPS方案使用64G扇区30任务并行，此时占用90个核心。本次测试，使用单CPU模拟双路性能。

	2T DRAM(基准)	2T BPS	4T BPS
CPU	Intel Icelake 6346*2		Intel Icelake 8358*2
Memory	32*64GB DDR4	16*32GB DDR4	16*64GB DDR4
BPS	-	16*128GB BPS	16*256GB BPS
SSD	4*7.6T KIOXIA CM6
GPU	1*NV 3090
并行任务	64G 扇区14任务	64G 扇区14任务	64G 扇区30任务

表1：配置对比表

　　测试结果如下：

配置	2T DRAM	2T BPS	4T BPS
P1耗时	370分钟	472分钟	472分钟

　　表2：测试结果表

　　使用每天每台服务器封装的P1容量大小进行3个方案横向比较，2T DRAM方案的每天P1封装吞吐量为(24h*60/370分钟)*64GB=3487GB， 2T BPS方案的每天P1封装吞吐量为(24h*60/409分钟)*64GB=3154.6GB，4T BPS方案的每天P1封装吞吐量为(24h*60/472分钟)*64GB=5,857.6GB。

　　图4：性能对比图

客户收益

　　2T BPS方案性能是2T DRAM方案的90.5%，但2T BPS方案的整机价格却低于2T DRAM方案，具有明显的成本优势。

　　4T BPS方案吞吐量是2T DRAM方案的168%，并且受限于DRAM容量大小，双路AMD服务器最大只有2T内存，要达到4T内存只能使用2台双路服务器，4T BPS方案在空间和能耗上比2T DRAM方案有更大优势，因此将带来更多的成本节约，这在当前企业数据爆发式增长、在大数据方面的投入逐渐增大的背景下，显然具有重要意义。