跳到主要内容
大型服务器旁边的数据和数字的抽象图像
研究团队将减少数据集的大小,同时保留其中的重要信息,使研究人员能够更有效地处理完成科学目标所需的数据。|图片:盖蒂图片社

国家实验室或政府机构等科学用户设施每年产生的数据量可达几十亿gb每年。如此大量的数据生成现在已经开始超过研究人员有效解析这些数据以实现其科学目标的能力——当涉及到实现新的科学进步时,这是一个超级大的问题。

为了开发新的数学和计算技术来减少这些数据集的规模,美国能源部(DOE)向9个项目拨款1370万美元,作为该项目的一部分高级科学计算研究(ASCR)计划2021年9月。一个由尹炳俊博士德克萨斯A&M大学电气与计算机工程系副教授,已获得240万美元,用于解决移动、存储和处理科学工作流程产生和处理的大量数据集的挑战。

该项目的首要原则是专注于每个数据集的科学目标,并保持与目标相关的感兴趣量(qi)。通过优化数据的表示,同时将重点放在手头的科学目标上,Yoon的团队能够在数据量大幅减少的情况下保留可能导致科学突破的重要信息。

Yoon说:“我们的想法是,不仅要大幅减少数据量,而且要最终保留数据的目的。”“这就是为什么我们称之为科学工作流程的基于目标的数据缩减。我们希望减少数据量,但不牺牲感兴趣的数量或质量。”

为了实现这一目标,Yoon的团队将采取的第一步是利用信息理论的方法,通过利用语义和不变性来找到数据的紧凑表示。他们还将研究数据减少如何影响最终目标的实现,并在此基础上共同优化组成一般科学工作流程的模型。

我们的想法是不仅要显著减少数据量,而且要最终保留数据所服务的目标。

尹炳俊博士

大量数据如何变得难以管理的一个例子是低温电子显微镜(cryo-EM),这是一种广泛用于分子结构分析的方法。在cryo-EM期间,典型的数据集由数千张显微图组成,其中包含分子在各种方向上的投影图像,大小为几tb。另一个例子是通过x射线散射实验,这是常规执行来分析材料结构。当在映射模式下进行x射线曝光时,在样品的横截面上进行x射线曝光,单个散射地图是一个可能包含大约100亿个值的4D数据集。

Yoon说:“我最兴奋的事情可能是我们第一次从基于客观的角度来研究这个数据减少问题,我相信这可能是其他人没有做过的。”“我们提出了一个指标,可以用于客观量化数据减少的影响,然后通过使用这个指标优化数据减少管道,这样我们就可以保持数据的可用性,以支持最终目标。我们将这一想法应用到数据缩减中所带来的最终性能也非常令人兴奋。”

ASCR项目的任务是发现、开发和部署计算和网络能力,以分析、建模、模拟和预测对美国能源部和科学进步至关重要的复杂现象。

除了尹某,共同首席研究员有爱德华·多尔蒂博士而且钱小宁博士来自德州农工大学电气与计算机工程系;该项目还包括布鲁克海文国家实验室和伊利诺伊大学香槟分校的合作者。

Baidu