了解ML监控债务

本文是正在进行的系列文章的一部分,该系列文章探讨了ML监控债务、如何识别债务以及管理和减轻债务影响的最佳实践的主题

我们都很熟悉软件工程中的技术债务,在这一点上,ML系统中隐藏的技术债务实际上是教条。但是ML是如何监控债务的?ML监视债务是指模型监视被它所监视的ML系统的规模所淹没。这让从业者不得不大海捞针,或者更糟糕的是,在警报中点击“全部删除”。

ML监控远不及此与传统APM监控一样清晰。当涉及度量和基准时,不仅没有绝对的真理,而且模型也不受规模经济的影响。启动一个新的Kubernetes集群很容易,并且该集群将遵循与其前身相同的性能指标、基准测试、阈值和kpi。但是当您部署一个新模型时,即使它是一个已经存在的模型,并且工件没有任何变化,实际上也可以保证您的引用将是不同的。这意味着您将为部署到生产和监视的每个模型承担债务。

什么是糟糕的性能水平?

80%的准确率?60%的准确率?

需要考虑多个因素来确定一个好的/坏的性能水平,底线将根据每个模型的用例、分段,当然还有数据而有所不同。在这篇文章中,我们将通过使用来解释ML模型监控的债务维度“大数据的四个V”框架,它非常适合进行这种比较。

1.真实性

高维度

测量和监视依赖于2-3个元素的数据驱动流程相当简单。但是ML就是利用大量的数据源和实体来定位底层的、可预测的模式。根据问题和相关数据的不同,您可能要查看几十个特性,甚至成百上千个特性,每个特性都应该被独立地监视。

模型指标

ML是一个随机的面向数据的世界,由生产中的多个不同管道组合而成。这意味着需要为每个实体跟踪和监视大量的度量和元素,例如数值元素的特征平均值、标准值和缺失值,以及类别元素的基数水平、熵等。全面的模型度量超越了特性、数据和管道完整性,提供了可量化的度量来分析模型输入和输出的相对质量。

芯片Huyen最近出版了模型度量的综合列表覆盖值得检查的整个模型生命周期。

2.体积

ML监控中的容量需要从两个维度进行分析:吞吐量和粒度

吞吐量

模型通常处理大量数据,以实现决策过程的自动化。这对监控和观察数据集的分布和行为提出了工程挑战。监控解决方案需要在几分钟内检测数据质量和性能问题,同时随着时间的推移分析巨大的数据流。

数据分辨率

要在亚群体水平上检测事物,需要有按段分割数据的能力,但这也是一项分析挑战。在不同的亚群体下,数据和模型性能的性质可能会有很大的不同。

例如,一个名为“年龄”的功能的缺失值指示器通常可能占总体的20%,但对于一个特定的渠道,例如Facebook,该值可能是可选的,在60%的情况下是缺失值,而对于所有其他亚人群,只有0.5%的情况下是缺失值。

高级视图只能提供有限的信息,特别是关于亚群体和对支持业务需求和决策至关重要的详细解决方案。影响整个数据集或人口的宏观事件是每个人都知道要注意的事情,通常会相对较快地检测到。

但这意味着,在巨大的数据流中检测问题的工程和分析挑战,现在是您需要监控的不同部分的数量的倍增。

3.速度

模型以不同的速度为业务流程的自动化服务,从批量每日/每周预测到大规模的实时ms决策。根据您的用例,您需要能够支持不同类型的速度。不过,就像体积一样,速度还有一个额外的维度需要考虑,那就是管道速度。将整个推理流视为持续改进的管道。为了在不破坏事物的情况下快速前进,您需要将延迟反馈重新整合到ML决策过程中。

在一些用例中,例如广告技术实时竞价算法,我们将希望监控每周的影响,因为我们需要能够在几分钟内检测数据质量或性能问题,以避免业务灾难。

4.各种

最后但并非最不重要的是,我们谈到了多样性。一个具有业务ROI的成功模型跨越了更多的模型。一旦您通过了第一个模型障碍,并证明了ML对业务结果的积极影响,您的团队和您的业务都将希望复制这一成功并扩大其规模。有三种缩放模型的方法,它们之间并不相互排斥。

版本

ML是一个迭代的过程,而版本就是我们做它的方式。现实世界不是静态的,因此管道和模型必须不断优化。为相同的现有模型不断创建版本,但每个版本实际上是一个完全不同的模型实例,可能具有不同的特性,甚至不同的基线。

用例规模

将一个用例添加到您的武器库中意味着您实际上是从头开始重新启动整个MLOps周期。您可以携带许多东西,特别是涉及到功能工程时,但是当您部署到生产时,您将有一组新的模型度量来监视。除了ML监视的技术方面之外,模型还驱动业务流程,并且每个流程都是不同的。对于同一个贷款审批模型,风险和合规团队可能会担心由于监管问题而产生的潜在偏差,业务运营人员希望第一个知道模型是否突然决定全面拒绝贷款,ML工程师需要知道完整性和管道问题,而数据科学团队可能对模型预测中的缓慢漂移感兴趣。关键是它是多学科的,你的利益相关者对ML决策过程的不同方面感兴趣。对于一个新的流程,您需要确保您正在快速交付价值。

多租户规模

多租户具有指数级容量。决定跨多个原则部署模型是在租户本身等同于人口时使用的。例如,部署一个检测潜在客户流失的学习过程,但在每个国家分别进行(在本例中为租户)。结果是每个国家都有一个独立的模型。

做出这样的决定可能会让你一夜之间从单一的欺诈模型发展到数百个欺诈模型。虽然他们可能共享相同的度量标准,但期望值和行为会有所不同。

关于债务监测模型,我们学到了什么

从表面上看,模型监视似乎很简单。公平地说,对于一个或两个模型,如果您愿意投入资源,手动监控ML是可行的。但在机器学习工程中,就像软件工程一样,一切都是债务和规模的问题。是否值得承担,之后再偿还?模型监视不是一项简单的任务,从技术和流程的角度来看,它也不是直接的,随着规模的扩大,管理ML监视的难度也在增加。

4v说明了为什么模型监控是复杂的,作为量化这个问题的练习,让我们考虑以下数字:

现在,我们已经量化了ML监控的固有规模问题及其原因,下一步是识别债务。本系列的以下部分将讨论确定债务指标和管理和克服债务监测模型的最佳实践。

请继续关注!

奥伦Razon的联合创始人兼首席执行官是Superwise领先的模型可观测平台。为从业者提供完全自动化的企业级模型监控功能,这些功能需要在内部开发数年,并封装在自助服务平台中。

Superwise的联合创始人和首席执行官,领先的模型可观测性平台。前英特尔和终身MLOps从业者。

Baidu
map