现在注册

登录

忘记密码

忘记密码? 请输入您的电子邮件地址. 您将收到一个链接,将创建通过电子邮件新密码.

添加后

你必须登录后添加 .

添加问题

您必须登录才能提问.

登录

现在注册

欢迎Scholarsark.com! 您的注册将授予您访问使用该平台的更多功能. 你可以问问题, 做出贡献或提供答案, 查看其他用户以及更多的个人资料. 现在注册!

真实世界数据科学案例研究, 使用 Python 的项目

真实世界数据科学案例研究, 使用 Python 的项目

价格: $89.99

那么我们如何让算法在数据中找到有用的模式? 机器学习与传统编程算法之间的主要区别在于无需明确编程即可处理数据的能力. 这实际上意味着工程师不需要向机器提供有关如何处理每种类型的数据记录的详细说明. 代替, 机器根据输入数据自行定义这些规则.

无论特定的机器学习应用程序, 一般工作流程保持不变,一旦结果过时或需要更高的准确性,就会反复重复. 本节重点介绍构成机器学习工作流的基本概念.

任何机器学习执行的核心工件都是数学 模型, 它描述了算法在使用历史数据的子集进行训练后如何处理新数据. 的目标 训练 是开发一个能够制定一个模型 目标价值 (属性), 每个数据对象的一些未知值. 虽然这听起来很复杂, 真的不是.

例如, 您需要预测您的电子商务商店的客户是否会购买或离开. 这些预测 要么 离开 是我们正在寻找的目标属性. 要训​​练一个模型进行这种类型的预测,你“喂”一个算法 数据集 存储客户行为和结果的不同记录 (客户是否离开或购买). 通过从这些历史数据中学习,模型将能够对未来的数据进行预测.

机器学习工作流程

通常, 工作流程遵循这些简单的步骤:

  1. 收集数据. 使用您的数字基础设施和其他来源收集尽可能多的有用记录并将它们合并为一个数据集.

  2. 准备数据. 以最佳方式准备要处理的数据. 数据预处理和清理程序可能非常复杂, 但通常, 他们旨在填补缺失值并纠正数据中的其他缺陷, 就像列中相同值的不同表示 (e.g. 十二月 14, 2016 12.14.2016 不会被算法同等对待).

  3. 拆分数据. 分离数据子集以训练模型并进一步评估它对新数据的表现.

  4. 训练模型. 使用历史数据的子集让算法识别其中的模式.

  5. 测试和验证模型. 使用历史数据的测试和验证子集评估模型的性能,并了解预测的准确程度.

  6. 部署模型. 将经过测试的模型作为分析解决方案的一部分嵌入到您的决策框架中,或让用户利用其功能 (e.g. 更好地针对您的产品推荐).

  7. 迭代. 使用模型后收集新数据以逐步改进它.

关于 arkadmin

发表评论