太阳城娱乐的CA-AI通过在AI学习之前清理坏数据使其更聪明
作者:吉赛尔·加卢斯蒂安 2025年6月18日星期三
在机器学习和人工智能的世界里,干净的数据就是一切。 即使是少量被称为标签噪声的错误标记示例也会破坏模型的性能,特别是那些依赖于几个关键数据点来做出决策的支持向量机(svm)。
支持向量机是一种广泛使用的机器学习算法,应用于从图像和语音识别到医学诊断和文本分类的所有领域。 这些模型通过寻找一个边界来最好地分离不同类别的数据。 他们依赖于训练数据的一个小而关键的子集,称为支持向量,来确定这个边界。 如果这几个示例被错误地标记,则最终的决策边界可能存在缺陷,从而导致在实际数据上的性能不佳。
Now, a team of researchers from the Center for Connected Autonomy and Artificial Intelligence (CA-AI) within the 工程与计算机科学学院 at 太阳城娱乐 and collaborators have developed an innovative method to automatically detect and remove faulty labels before a model is ever trained – making AI smarter, faster and more reliable. 在人工智能开始学习之前,研究人员使用一种数学技术来清理数据,寻找不太合适的奇怪或不寻常的例子。 这些“异常值”被删除或标记,确保AI从一开始就获得高质量的信息。
“SVMs are among the most powerful and widely used classifiers in machine learning, with applications ranging from cancer detection to spam filtering,” said Dimitris pado, Ph.D., Schmidt Eminent Scholar Professor of Engineering and Computer Science in the 太阳城娱乐 电气工程与计算机科学系, director of CA-AI and an 太阳城娱乐 Sensing Institute (我感觉) faculty fellow. “它们之所以特别有效,但也特别容易受到攻击,是因为它们只依赖少量的关键数据点,即支持向量,来区分不同的类别。 即使其中一个点被错误地标记——例如,如果一个恶性肿瘤被错误地标记为良性肿瘤——它也会扭曲模型对问题的整个理解。 这样做的后果可能是严重的,无论是遗漏的癌症诊断,还是安全系统未能标记出威胁。 我们的工作是保护模型——包括支持向量机在内的任何机器学习和人工智能模型——免受这些隐患的影响,在它们造成伤害之前识别和删除那些标签错误的案例。”
“清理”训练数据集的数据驱动方法使用了一种称为l1 -范主成分分析的数学方法。 与传统方法不同的是,传统方法通常需要手动调整参数或假设存在的噪声类型,该技术完全基于它们与组中其余部分的匹配程度来识别和删除每个类别中的可疑数据点。
帕多斯说:“通常由于标签错误,与其他数据点明显偏离的数据点会被标记并删除。” “与许多现有技术不同,这个过程不需要手动调整或用户干预,可以应用于任何人工智能模型,使其具有可扩展性和实用性。”
这个过程是强大的,高效的,完全无需触摸-甚至处理了臭名昭著的棘手的排序选择任务(决定在分析过程中保留多少维度),而无需用户输入。
研究人员在真实和合成数据集上广泛测试了他们的技术,这些数据集具有不同程度的标签污染。 总的来说,它在分类准确性方面产生了一致和显著的改进,证明了它作为高性能机器学习系统开发中的标准预处理步骤的潜力。
帕多斯说:“我们的方法特别引人注目的是它的灵活性。” “无论任务或数据集如何,它都可以作为任何人工智能系统的即插即用预处理步骤。 这不仅仅是理论上的——在嘈杂和干净的数据集上进行的广泛测试,包括众所周知的基准,如威斯康星州乳腺癌数据集,都显示出分类准确性的持续提高。 即使在原始训练数据看起来完美无缺的情况下,我们的新方法仍然提高了性能,这表明微妙的、隐藏的标签噪声可能比以前想象的更常见。”
展望太阳城娱乐,这项研究为更广泛的应用打开了大门。 该团队有兴趣探索如何将这个数学框架扩展到解决数据科学中更深层次的问题,例如减少数据偏差和提高数据集的完整性。
“As machine learning becomes deeply integrated into high-stakes domains like health care, finance and the justice system, the integrity of the data driving these models has never been more important,” said Stella Batalama, Ph.D., dean of the 太阳城娱乐 工程与计算机科学学院. “我们要求算法做出影响现实生活的决定——诊断疾病、评估贷款申请,甚至通知法律判决。 如果训练数据有缺陷,后果可能是毁灭性的。 这就是为什么像这样的创新如此重要。 通过从源头提高数据质量——甚至在模型被训练之前——我们不仅使人工智能更准确; 我们要让它更负责任。 这项工作代表着朝着构建我们可以信任的人工智能系统迈出了有意义的一步,这些系统可以在现实世界中公平、可靠和合乎道德地运行。”
这项工作将发表在电气和电子工程师协会(IEEE)的《神经网络和学习系统学报》上。 共同作者,都是IEEE的成员,是Shruti Shukla; 加州理工学院、复旦大学电气工程与计算机科学系博士生; 乔治Sklivanitis,博士,CA-AI和电子工程与计算机科学系Charles E. Schmidt研究副教授,我感觉研究员; 伊丽莎白·塞雷纳·本特利博士; 以及美国空军研究实验室的迈克尔·j·麦德利博士。