随着大数据和人工智能的迅猛发展,对存储解决方案的需求也日益增长。尤其是以AI为首的创新技术,对存储容量及耐用度提出了更高要求。
为满足这些需求,慧荣科技在2024年开放计算项目(Open Compute Project, OCP)全球峰会上分享了最新的研究成果,由慧荣科技SSD固件架构师David Wang于灵活数据放置 (FDP) 讨论小组中进行了《在面向人工智能的高容量 QLC SSD中启用FDP所面临的挑战》内容分享。
QLC以其大容量和高能耗比等特点,成为当前读取密集应用场景的重要选择。但在AI服务器中,数据处理包含采集、准备、训练及推理等过程,在这一流程中存在着存取类型多样(如顺序读写与随机存取)、操作类型复杂(读、写、更新)、存取大小不一(小块数据与大文件混合)以及并发性等特征。
正因为此,在读取密集应用场景下如鱼得水的 QLC SSD,在 AI 服务器中正面临着以下难题:
- 性能下降:在写入操作较多的情况下,QLC SSD容易出现较高的写放大因子(WAF),进而降低了IOPS和吞吐量。
- 耐久性不足:QLC NAND闪存的编程/擦除周期(PE cycle)通常较低,这导致了较低的每日全盘写次数(DWPD),从而影响了SSD的整体寿命。
为解决以上问题,慧荣科技提出灵活数据放置(Flexible Data Placement, FDP)作为增强 QLC 性能和耐用度的理想解决方案。
根据慧荣科技实测,基于 MonTitan™ 16TB PCIe Gen5 QLC SSD,采用 FDP 方案可得到以下优势:
- 降低写放大因子(WAF):FDP 能够显著减少不必要的写入操作,从而大幅降低 WAF。测试数据显示,在启用 FDP 后,WAF 从 5.5 降至 1,同时 IOPS 从 120K 提升至 725K。
- 改善每日全盘写次数(DWPD):同样地,FDP 有助于增加 DWPD,SSD 可以在特定条件下达到 0.96 的 DWPD。
- 最大化性能,最小化负面影响:FDP 不仅提高了性能指标,还减少了低 PE 周期 QLC 介质对整体性能的影响,确保了长期稳定运行。
从上述图表可以看出,具备 FDP 的 SSD,不仅在 WAF 方面低于未使用 FDP 的 SSD,还展现了写入吞吐量的提升。降低的 WAF 意味着数据管理更加高效,减少了数据重写的需求,从而提升了 SSD 的耐用性和性能。写入吞吐量的增加显示出 FDP 能够加快数据写入速度,使 QLC SSD 更适合用于写入密集型应用,同时延长其寿命。
考虑到现代数据中心对高效能存储解决方案的需求,特别是在支持AI训练和推理方面,慧荣科技还特别提出了以下几个设计要点以确保最佳用户体验:
减少 DRAM 使用以控制成本
- 采用可配置的IU (Indirection Unit)设计,如16K IU适用于大容量驱动器。
- 利用硬件辅助的位打包L2P条目进一步节省L2P表空间。例如,使用 33 位条目(而不是 40 位)来寻址 8G IU,可进一步将 L2P 的大小减少到 17.5%。
- 减少大 IU 上小写入造成的 WAF,支持 4K IU 的 RUH 和 16K IU 的 RUH。应用程序可将小规模写入放在 4K IU 的 RUH 上。
多命名空间下的 QoS 和性能一致性
通过双态令牌桶算法 (PerformaShape) 调整每个命名空间的读写性能,降低 noise neighbors 和资源竞争导致各个租户之间的性能不稳定。
实际测试表明,启用性能整形后,读写一致性的提升分别为 21% 和 31%。
随着这一创新方案的应用推广,我们有理由相信未来的数据中心将变得更加高效且经济实惠,从而更好地服务于快速增长的数据需求。慧荣科技将继续致力于推动存储技术的进步,为各行各业带来更加强大的数据处理能力。
联络我们