找回密码
 立即注册
查看: 29|回复: 0

打破机器学习技术与业务藩篱——Amazon SageMaker Canvas深度体验

[复制链接]

9280

主题

0

回帖

2万

积分

论坛元老

积分
27848
发表于 2024-3-1 13:17:51 | 显示全部楼层 |阅读模式
编辑导语:机器学习这一概念并不是人人都懂,也因此,一款可以让用户无需拥有对应经验、即可实现机器学习智能剖析 的对象 便容易让用户觉得 好奇,例如Amazon SageMaker Canvas。本篇文章里,作者就对这款对象 进行了体验测评,一起来看一下。

作为一个曾经干过数据剖析 、数据挖掘、且目前从事数据产品工作的“数据人”,当听说亚马逊云科技推出了零代码、不需要机器学习经验就可上手的机器学习预测对象 的时候,我脑海里条件反射性显现 出昔时 那个抱着算法啃到哭的少女,以及随之而来鲁豫老师的声音:我不信~~
抱着一颗一探究竟的好奇心,我登录官网看到有两个月的免费体验期后,便马上跟着官方指引注册设置好账户,决定深度体验一下这款产品——Amazon SageMaker Canvas。
下面,我就以具体使用场景为切入,从“数据剖析 ”、“产品设计”两个角度来分享下这一个多月来我的体验使用感触感染 。
一、业务数据剖析 场景:用户注册预测
在零售客户营销领域,最重要的治理 方法 莫过于分类施策。对不合特点、处于不合阶段的客户采取针对性的营销手段,能力 在有效的预算范围内最年夜 水平 提升营销效果。
比如,我们都知道在客户流失之前对其进行挽留的效果要远好于已经流失后再采取办法 、以及如果能预判客户注册产品的可能性,就可以提前采取更为精准的营销方法 ,等等。
因此,准确预测客户在某种维度上的类别或可能性,提前进行精准的营销干涉 ,对提升投入产出比是异常 症结 的事情。如何预测?以用户注册预测为例,目前各企业一般采取以下两种方法 :
一类是业务部分 依据 自己的业务经验总结出哪些特征对用户是否注册某产品的影响较年夜 ,满足这些特征的便判定为“会注册”。
稍微严谨一点的会给每个特征付与 权重,计算得出注册可能性分数。但选什么特征,如何赋权,很年夜 水平 是依赖于业务同事多年对数据的不雅 察总结和业务经验沉淀。
这种方法 的优势在于,逻辑简单,业务解释性强;但缺乏对数据的深度挖掘,预测准确率较低,同时异常 依赖小我 经验。
另一类则是由专业的数据科学团队依据 业务部分 的预测需求,利用机器学习算法选取特征,训练、验证数据,最后输出一套最优模型进行预测。
由于运用了专业的数学及统计理论对历史数据进行挖掘探索,准确性较第一种方法 有了很年夜 提升。不过由于逻辑庞杂 ,专业门槛高,整个进程 对于业务同事而言是“黑匣子”般的存在。
相应地,数据科学家在业务经验方面较为缺乏,进程 中需要与业务同事高度协作。对于这种“你不懂业务,我不懂算法”的情况,怎么能够高效沟通一直是很多企业在面临的阻碍。
此外考虑到整个进程 消耗 的人力算力和时间成本,利用机器学习探索数据的方法 在企业里一直很难普适性地推广开来。
总之,现状就是业务剖析 和机器学习模型之间切实其实 或主不雅 或客不雅 都存在着一道隔阂。但Canvas官网的产品优势介绍(图1),仿佛就在说它可以打破这块藩篱。为了印证,我将自己代入为一个不懂代码不懂算法的业务剖析 角色,切实体验下如何在Canvas中进行用户注册预测。

图1(来自官网)
第一步:数据准备

本次使用亚马逊云科技官网中的数据集,配景 为银行业务剖析 师想要预测哪些客户最有可能注册存款证,数据字段如图2。

图2:银行营销数据集字段说明
首先将数据集拆分为训练集和测试集。因为官网数据集是比较规整的,为了更贴合平时业务剖析 工作中的数据情况,再将训练集纵向拆分成两张表(trainA、trianB)。
tainA包含 了客户的基本信息及目标值(图2中的2-8和目标字段y)、trainB包含 剩余的客户活动信息以及宏不雅 经济指标(9-21字段),两个数据集均有客户代码。同时,我将部分字段的值替换为缺失值以更贴合实际情况。
第二步:将训练集导入Canvas

进入Canvas首页后,在dataset(数据集)中选择Import(导入)。可以看到有三种导入方法 :
本地upload:直接拖拽本地文件上传。S3储存桶:从S3云中载入数据。构建链接器从第三方数据源(Redshift和Snowflake)导入。
前两种方法 我都测验考试 了一下。对于3万多行、22个字段的数据,导入用时年夜 约10秒。导入后可立即对数据进行预览。

图3
现在需要把导入的两个数据集trainA、trainB拼接成一张具有完整特征和目标信息的表:train。该数据处理进程 一般在建模之前会事先用其他对象 完成。
但我发明 Canvas在导入数据后,就自带了这个数据连接功能:Join Data:用鼠标拖拽想要连接的表,自界说 连接方法 及连接键,归并 为一张表。
虽然最终达到的效果同Excel的Vlookup、SQL的join、以及python的pandas.concat等,但这种可视化的拖拽方法 在操作便利度上还是有了极年夜 提高。
至此,我们的训练数据集train已完整导入。

图4
第三步:训练数据,建立模型

首先,添加并命名New Modle:bank-marketing。接下来跳转到的建模页面依次有四个模块:Select(选择数据)、Build(建立模型)、Analyze(剖析 模型结果)、Predict(预测新数据)。依照 模块顺序,我开始照着页面提示进行操作。
1)Select dataset
这一步是选择训练数据集,先前导入及拼接好的数据都可供选择。并且 此步调 也可以跳转到第二步从本地或云上导入数据集。我选择了先前导入拼接好的数据集:train。

图5
2)Build
数据集选择好之后,自动跳转到了Build页面。Build页面简洁地分为四个区域:数据集统计概览、目标字段指定(Select a column to predict)、模型类型选择(Model type)、建模(Preview model、Quick build、Standard build)。
① 数据集统计概览区:各字段的统计概览已经自动涌现出来,包含 :
字段基本信息(数据类型、缺失值个数及占比、格局 不匹配值的个数及占比、去重数统计、均值、众数)。
可以预览到此数据集中存在缺失值,不过Canvas官方介绍说建模时会自动进行缺失值、格局 不匹配值自动进行处理。且诸如归一化、数值编码、分箱等特征工程操作,Canvas都邑 内部自动处理。这对业务人员对所导入数据集的事前处理也降低了要求。

图6
字段散布 统计可视化:

图7
字段筛选查看:

图8
② 目标字段指定(Select a column to predict):需要我们选择模型的预测目标字段:y。
此时,旁边的Modle type(模型类型选择)已经依据 我所选择的目标字段快速匹配好了相应的模型类型:二分类模型(2 category prediction)

图9
在Model type中,我们还可以自行选择模型的类型。Canvas目前支持的模型类型有(图10):二分类模型(2 category prediction)、三种及以上分类模型(3 +category prediction)、回归模型(Numeric model type)、时间序列预测模型(Time series forecasting)。当我测试导入包含时间列数据集、且选择了一个变更 的数据列作为目标,会自动匹配到时间序列的预测任务。

图10
建模区域有正式建模和预建模。预建模(Preview model)是正式模型构建之前,Canvas帮我们粗略搭建的模型,通过Preview model,我们可以年夜 概了解模型的预测效果、以及每个特征字段对目标值y的影响水平 (图11)。
Canvas初步建立的Preview model显示,模型的准确率为91.682%,并且loan对目标值y的影响水平 最小。为了减少不重要特征值的干扰,同时提高建模效率,我在正式建模时,没有勾选字段Loan,并且从业务知识我可以知道cusid对用户的是否注册也是没有影响的。因此我去失落 了对特征字段Loan、cusid的勾选,并开始正式建模。

图11
正式建模分为“Quik build”、“Standard build”。前者用时较快(2-15min),后者依据 数据集年夜 小不合年夜 约需要耗时2-4小时,但预测准确率更高。可依据 模型应用场景的严谨度要求不合进行选择。我选择了”Quick build“进行建模。在期待 期间,也是可以正常使用Canvas的其他界面。
第四步:模型剖析

2分钟后,我获得 了Quick build的最终建模结果。对目标值y的预测准确率为91.649%。

图12
此外,我还获得 了更多信息:
1)单特征影响(Column impact)
我可以看到每个特征对客户是否注册的影响水平 年夜 小,其中duration,也就是客户上次被联系的连续 时间年夜 小对客户是否注册存款证的影响是最年夜 的,其次是就业指数。
并且,每个特征字段的具体取值是如何影响预测目标的可视化剖析 图也在旁边被清晰地展示出来。例如,通过比较 图中contact两类取值的中位线高度,就能看出相比使用座机联系客户,使用手机联系的客户注册存款证的可能性更高。这对后续我们营销客户存款证该采取哪种联系方法 有很年夜 的指导意义。

图13
2)模型评价指标
我们还可以看到该分类模型的桑基图(图14)、各类 评价指标和混沌矩阵(图15)。
例如,我们看到在真实注册了存款证的客户有570个,其中有375个被模型准确预测到了,这说明准确率precision为65.789%。而所有预测为会注册存款证的客户有696个,其中375个是真的注册了,则模型召回率recall为53.879%。
由于我们在营销进程 中,存眷 重点在于找出那些可能注册的客户(y=yes),如果现阶段的营销策略较为激进,宁愿误判客户会注册,也不肯 漏失落 一个可能注册的客户,那precison更高的模型就是更相符 我们营销政策的;如果现阶段的营销策略较为保守,希望预测会注册的客户中年夜 多都是真的会注册的客户,则应该选择recall更高的模型。
值得一提的是,也许不是所有业务剖析 人员都能马上理解precision、recall等指标的寄义 。但桑基图(图14)则能让一个就算完全不懂机器学习的人也能够快速直不雅 地看出分类预测结果与实际值之间的关系。

图14

图15
第五步:新数据目标值预测

现在模型已经建立好,并且我们对模型的分类结果也有了直不雅 地了解。接下来就是在实践中检验“真理”的时刻了:对训练集以外的新客户数据进行预测。Canvas的预测方法 有:批量预测和单点预测。
1)批量预测(Batch prediction)
我导入了之前准备好的验证数据集,1万多行的数据集在5秒钟之内便得出预测结果(图16)。预测结果中不仅有客户的分类结果(是或否),还有客户被预测为“是”或“否”的概率值。
这样,我们就可以依据 预测为“是”的概率年夜 小降序排列,制定不合优先级水平 的营销手段,例如为“是”的概率年夜 于80%的客户,将其推送至客服专人德律风 营销,概率在50%-80%之间的客户,仅通过短信营销。

图16
2)单点预测(Single prediction)
这里我录入了单个客户每个特征字段的值,Canvas便预测出这个客户有99.844%的概率不会注册存款证。当我们想要对某个客户进行重点营销或存眷 时,这样的单点预测便能极年夜 提高便捷度。

图17
第六步:分享模型给数据科学家

在一些异常 重要的业务预测场景下,我们经常 会对预测的准确性有更严格的要求或者想要模型在业务中更历久 普遍 地应用。这时,可以利用Canvas将我们训练好的模型通过Studio Link分享给数据科学家,他们便可以直接对模型的底层代码进行进一步的调试优化、安排 等工作。
二、从业务数据剖析 预测角度看Canvas
Canvas的使用群体定位是不会代码、没有机器学习经验的业务剖析 人员,那么从业务数据剖析 工作的角度来说,我体验总结出Canvas的以下应用价值:
1. 适用于各类业务预测场景

包含 分类预测、数值回归预测、时间序列预测。例如,精准营销需要对客户的注册可能性进行分类预测、金融风控需要对客户将来是否会逾期进行分类预测;仓储治理 需要依据 历史情况预测库存需求量(回归预测);零售门店治理 需要对具有周期性特点的客流量进行预测(时间序列预测)……
2. 提高了业务预测的准确性、可解释性

从文章开头提到的目前两种业务预测方法 可以看出,业务预测的准确性和可解释性通常很难兼得,而Canvas可以让业务人员通过机器学习模型进行预测以及挖掘出的每个特征变量的取值影响,剖析 结果可以更准确、有依据地应用于业务运营治理 决策。且整个进程 业务方介入 度高,业务可解释性也相应获得 很年夜 提升。
3. 提高了机器学习应用的普适性

由于Canvas将机器学习预测的能力产品化、无代码化。企业人员使用机器学习的门槛年夜 年夜 降低,一方面能解决传统业务剖析 方法 下对小我 剖析 经验极度依赖的情况;另一方面能使得机器学习在企业内获得 更普适普遍 的应用。
4. 极年夜 降低了业务剖析 人员与数据科学家的沟通成本

Canvas可以将业务同事建立的模型分享给数据科学家,便于其对模型代码进一步优化。双方在业务和技术的对接上直接通过Canvas形成了共鸣 ,使得业务与技术的沟通协作加倍 高效。
三、从产品设计角度看Canvas
1. 产品定位清晰且直击痛点

Amazon Sagemaker Canvas的用户定位为无代码及机器学习经验、但有通过数据来进行业务预测需求的群体。这恰好瞄准了企业数据剖析 现状的痛点,很年夜 水平 上弥补了业务剖析 与机器学习应用之间的隔阂。
此外,Canvas在使用进程 中可以与亚马逊云科技的其他产品搭配使用,例如与Amazon S3、Amazon Redshift的数据对接、与Amazon SageMaker Studio的底层联动,清晰界定的产品范围及搭配方法 也让用户的使用体验加倍 高效。
2. 功能结构化繁为简

我将Canvas的功能模块结构梳理如图18 。其中最主要的模型建立部分包含 四个步调 :选择数据(Select)——建立模型(Build)——剖析 模型效果(Analyze)——进行预测(Predict)。整个进程 看似简单,却囊括了机器学习的全流程,在化繁为简的同时,能充分满足业务人员的剖析 预测需求。

图18
3. 交互操作简洁易懂

首先从界面上来看,Canvas的UI作风 及配色上都异常 简洁(图19),每个界面的要素都是需要 且最少;在我操作的进程 中,只需要跟着功能菜单的顺序和提示一步一步进行即可,并且操作都是点击、拖拉这样的简单方法 。
数据的展示及模型评价剖析 时,年夜 量采取 可视化图表,直不雅 易懂。切实其实 是不需要写一行代码、机器学习零经验的人也能快速上手使用。

图19
四、体验感悟
因为我自己以往的工作中在业务部分 做过数据剖析 ,也在技术部分 做过数据挖掘,经历过不懂代码不会机器学习却必须要给业务做预测剖析 的阶段,也经历事后 面花年夜 量时间学习写代码和机器学习算法转岗数据挖掘、但却离业务越来越远的阶段。
Amazon Sagemaker Canvas 巧妙地打破了这两者的壁垒,其无代码也体现出产品背后强年夜 的技术支撑,究竟 功能开发需要深刻场景理解及技术积淀。
在使用进程 中我多次联想到昔时 计算机从Linux迈向图形交互界面所产生的里程碑式的影响。
Amazon Sagemaker Canvas外面 上是一个无代码机器学习预测办事 平台,但其实实质 更体现出一种“科技普惠”的理念,让机器学习技术能够被更普遍 的、有需求的人应用。而这种“科技普惠”所带来的质量和效率提升、资源成本的节约,正是当前各企业数字化转型进程 中最重要的价值。
本文由 @离子烫电台头 原创宣布 于人人都是产品经理,未经作者许可,禁止转载。
题图来自Pexels,基于CC0协议
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|货拉客微商论坛 |网站地图|网站地图

GMT+8, 2024-9-21 20:28 , Processed in 0.070924 second(s), 20 queries , Gzip On.

Powered by Huolake! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表