研究人员开发了一种新的算法，可以降低大数据的复杂性|德州农工大学工程

用数据和粒子文件夹演示数字网络空间。 — Reza Oftadeh和他的团队有充分的理论证明，他们的模型可以使用机器学习算法同时一次找到并提取一组数据中最突出的特征。|图片:盖蒂图片社

每当进行科学实验时，结果都会转化为数字，通常会产生庞大的数据集。为了减少数据的大小，计算机程序员使用算法，可以找到和提取代表最显著的统计属性的主要特征。但许多这样的算法不能直接应用于这些大量的数据。

Reza Oftadeh是德克萨斯农工大学计算机科学与工程系的博士生，在该系教员Dylan Shell博士的建议下，开发了一种适用于大型数据集的算法。它是一种有用的机器学习工具，因为它可以提取并直接对特征进行排序。

Oftadeh说:“使用机器学习算法提取这些特征有很多特别的方法，但我们现在有一个完全严格的理论证明，我们的模型可以同时从数据中发现并提取这些突出的特征，只需一次算法即可完成。”

他们描述这项研究的论文发表在了2020年机器学习国际会议。

机器学习的一个子领域处理组件分析，即识别和提取原始数据集的特征以帮助降低其维数的问题。一旦识别出来，这些特征就会被用来制作数据的注释样本，用于进一步分析或其他机器学习任务，如基于这些特征的分类、聚类、可视化和建模。

在过去的一个世纪里，寻找或开发这类算法的工作一直在进行，但使这个时代与其他时代不同的是大数据的存在，大数据可以包含数百万个具有数万个属性的样本点。对人类程序员来说，分析这些庞大的数据集是一个非常复杂、耗时的过程，因此近年来人工神经网络(ann)已经走到了最前沿。

作为机器学习的主要工具之一，ann是一种计算模型，旨在模拟人类大脑如何分析和处理信息。它们通常由数十到数百万个被称为单元的人工神经元组成，它们排列在一系列层中，用于理解给定的信息。ann可以以各种方式使用，但它们最常用来识别最能代表数据的独特特征，并根据该信息将它们分类为不同的类别。

Oftadeh说:“有很多ann工作得很好，我们每天都在手机和电脑上使用它们。”“例如，Alexa、Siri和谷歌Translate等应用程序利用经过训练的人工神经网络来识别不同的语音模式、口音和声音。”

但并不是所有的特征都同样重要，它们可以按照从最重要到最不重要的顺序排列。以前的方法使用一种被称为自编码器的特定类型的人工神经网络来提取它们，但它们不能准确地说出特征的位置或哪个比其他更重要。

Oftadeh说:“例如，如果你有数十万个维度，想要找到其中最突出的1000个，并对这1000个进行排序，这在理论上是可行的，但在实践中并不可行，因为模型必须在数据集上重复运行1000次。”

为了使算法更加智能，研究人员建议在网络中添加一个新的成本函数，该函数可以直接根据相对重要性排序，提供特征的确切位置。一旦纳入，他们的方法会导致更有效的处理，可以输入更大的数据集来执行经典的数据分析。

为了验证他们方法的有效性，他们训练他们的模型进行光学字符识别(OCR)实验，这是将打字或手写文本的图像从数字物理文档中转换为机器编码的文本，就像扫描仪产生的那样。一旦使用所提出的方法训练了OCR，模型就可以判断哪些特征是最重要的。

目前，该算法只能应用于一维数据样本，但该团队有兴趣扩展他们的算法能力，以处理更复杂的结构化数据。

Oftadeh说:“直接分解多维数据是一个非常活跃、具有挑战性的数学研究领域，它本身有许多挑战，我们有兴趣进一步探索它。”

他们的下一步工作是推广他们的方法，以提供统一的框架来产生其他机器学习方法，这些方法可以找到数据集的底层结构和/或通过设置少量规范来提取其特征。

这项研究的其他贡献者包括计算机科学与工程系的博士生沈佳一，以及德克萨斯大学奥斯汀分校电气与计算机工程系的助理教授王张阳博士。普林斯顿大学数学系助理教授鲍里斯·哈宁(Boris Hanin)博士在确定研究问题和指导Oftadeh方面也发挥了重要作用。

这项研究由国家科学基金会和美国陆军研究办公室青年研究员奖资助。