首页 > 关于我们 > 新闻中心 > 赋力精准诊疗!浪潮信息存储支撑求臻医学数据基座建设

赋力精准诊疗!浪潮信息存储支撑求臻医学数据基座建设

2024-03-12

“一花一世界",这句话在蛋白质、细胞所在的微观世界里体现得淋漓尽致,大到动植物、小到细菌,都蕴含着独特的生命信息。破译这些生命密码,对于肿瘤早筛、罕见病诊治、靶向药物研制、遗传演化和精准医学研究等方面有重大助益。近期,浪潮信息为求臻医学提供了专业化的存储解决方案,助力肿瘤精准诊疗服务。

1.jpg

肿瘤精准诊疗服务为何要跑在大数据上

求臻医学成立于2017年,是一家专注于肿瘤精准医疗领域的高新技术企业,致力于肿瘤液态活检领域诊断产品的开发及智能迭代升级,业务涵盖肿瘤早筛、伴随诊断、动态监测、预后评估等多场景应用领域,同时不断探索发现中国人肿瘤基线及特异的生物标志物,助力抗肿瘤药物的研发。

2.png

伴随着业务高速发展,求臻医学服务的医院、患者日益增多,数据量也相应的急速增长,对存储系统容量空间的需求越来越大。在这种情况下,求臻医学有计划的针对原有数据存储平台进行持续升级,并新建了数据存储平台,主要用于支持肿瘤精准诊疗的生物医学信息化平台。

该平台涵盖了知识数据库、临床信息采集系统、数据注释接口(API)等模块系统,可以基于大数据分析为客户生成个体化的检测报告。整个信息平台数据存储的基础设施有着较大的挑战和要求:

首先,是存储数据量的需求。一个完整的检测样本会产生千万量级的文件。据了解,目前一台先进的分析仪设备每天捕捉的测序数据平均水平已达到4TB,加之样本信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,PB级别存储空间已经成为存储设备的基本要求。

其次,是数据可靠性的需求。肿瘤精准诊疗核心数据通常需要长期保存多年,通过合理的生命周期管理系统进行归档保留,数据的自动化迁移归档、数据的安全性、存储的易扩展性是数据归档存储考虑的重要因素。

最后,肿瘤精准诊疗检测的访问实时性要求高,这是一个超高并发的文件转换过程,整个生产过程有非常密集的文件读取和写入。整个生物样本的导入过程对文件存储的性能有着极高的要求,满足科研任务对不同文件高带宽的存储需求,既要文件系统必须提供超大文件数量的支持,同时必须在有限的时间内完成海量小文件的导入。

为肿瘤精准诊疗构建数据基座

针对求臻医学肿瘤精准诊疗应用数据量增长快、性能和可靠性要求高的业务特点,浪潮信息携手合作伙伴北京英信未来为求臻医学提供了专业化的存储解决方案。本次方案采用AS13000高密分布式存储,节点间管理网络采用千兆交换机,通过100GB高速IB网络连接前端并行计算业务集群,为前端业务构建了一套大容量、高可靠、高性能、低延迟的数据存储平台。

在容量方面,AS13000分布式存储集群由5个节点组成,每节点采用35块8T大容量硬盘配置,可提供PB级存储容量,满足海量数据存储需求。值得一提的是,该解决方案可实现分钟级扩充,最大可扩展至5120节点,在扩容同时可保障业务性能无明显波动,性能与容量随着节点的扩展而线性增长,避免对现有计算任务读写访问性能造成影响,使得存储系统的容量、性能在未来可随时按需扩展。

在可靠性方面,浪潮信息存储平台提供副本和纠删码两种数据保护方式,为用户提供多层级的数据保护及容灾功能,充分保证检测任务以及前端计算任务7x24小时的连续读写访问。结合信息平台检测数据需要长期保存的业务特点,浪潮信息采用三副本的数据冗余保护方式,同时,还可搭配InView智能统一存储管理平台,对数据中心的设备进行管理,提供容量、性能、故障的智能化预测性分析,帮助运维人员预防硬件潜在故障,降低了存储的复杂性,同时也有效地降低了运维成本。

在性能方面,浪潮信息存储解决方案针对肿瘤精准诊疗数据特点采用冷热数据分级存储搭配全局缓存技术,实现热数据快速响应,延迟降低40%。对于对象类型数据,采用对象聚合技术,来提升单次落盘的对象大小,降低落盘操作次数,单节点恒定聚合带宽达2GB/s以上,确保肿瘤精准诊疗的读写性能。

随着人工智能、大数据、云计算等数字技术的广泛应用,远程会诊、互联网医疗、医疗服务的疾病早筛和治疗等医疗智慧化水平不断提升。浪潮信息始终坚持通过数据的力量,驱动精准医疗应用加速发展。