真实世界数据科学案例研究, 使用 Python 的项目
价格: $89.99
那么我们如何让算法在数据中找到有用的模式? 机器学习与传统编程算法之间的主要区别在于无需明确编程即可处理数据的能力. 这实际上意味着工程师不需要向机器提供有关如何处理每种类型的数据记录的详细说明. 代替, 机器根据输入数据自行定义这些规则.
无论特定的机器学习应用程序, 一般工作流程保持不变,一旦结果过时或需要更高的准确性,就会反复重复. 本节重点介绍构成机器学习工作流的基本概念.
任何机器学习执行的核心工件都是数学 模型, 它描述了算法在使用历史数据的子集进行训练后如何处理新数据. 的目标 训练 是开发一个能够制定一个模型 目标价值 (属性), 每个数据对象的一些未知值. 虽然这听起来很复杂, 真的不是.
例如, 您需要预测您的电子商务商店的客户是否会购买或离开. 这些预测 买 要么 离开 是我们正在寻找的目标属性. 要训练一个模型进行这种类型的预测,你“喂”一个算法 数据集 存储客户行为和结果的不同记录 (客户是否离开或购买). 通过从这些历史数据中学习,模型将能够对未来的数据进行预测.
机器学习工作流程
通常, 工作流程遵循这些简单的步骤:
-
收集数据. 使用您的数字基础设施和其他来源收集尽可能多的有用记录并将它们合并为一个数据集.
-
准备数据. 以最佳方式准备要处理的数据. 数据预处理和清理程序可能非常复杂, 但通常, 他们旨在填补缺失值并纠正数据中的其他缺陷, 就像列中相同值的不同表示 (e.g. 十二月 14, 2016 和 12.14.2016 不会被算法同等对待).
-
拆分数据. 分离数据子集以训练模型并进一步评估它对新数据的表现.
-
训练模型. 使用历史数据的子集让算法识别其中的模式.
-
测试和验证模型. 使用历史数据的测试和验证子集评估模型的性能,并了解预测的准确程度.
-
部署模型. 将经过测试的模型作为分析解决方案的一部分嵌入到您的决策框架中,或让用户利用其功能 (e.g. 更好地针对您的产品推荐).
-
迭代. 使用模型后收集新数据以逐步改进它.
发表评论
你必须 登录 要么 寄存器 添加新评论 .