高效码农

撰写、分享国内外先进的IT技术

标签 Kaggle 下的文章

July 20, 2019

Kaggle、Python数据可视化seaborn(六):自定义图表

到目前为止,您已经学习了如何创建许多不同的图表类型。现在,再学习一些可以用来改变图表样式的快速命令。你学到了什么?由于决定如何最好地讲述数据背后的故事并不总是很容易,因此我们将图表类型分为三大类来帮助解决这个问题。趋势——趋势被定义为变化的模式。sns.lineplot-线状图最适合显示一段时间内的趋势,多条线可以用来显示多个组中的趋势。关联 - 您可以使用许多不同的图表类型来理解数据中变量...
July 19, 2019

Kaggle、Python数据可视化seaborn(五):直方图和密度图

在本教程中,您将学习有关直方图和密度图的所有信息。准备好笔记本和往常一样,我们从设置编码环境开始。import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete")选择一个数据集我们将使用一个包含150种不同...
July 18, 2019

Kaggle、Python数据可视化seaborn(四):散点图

在本教程中,您将学习如何创建高级散点图。准备好笔记本和往常一样,我们从设置编码环境开始。import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete")加载并检查数据我们将使用一个(合成的)保险费用数据集,...
July 17, 2019

Kaggle、Python数据可视化seaborn(三):柱状图和热力图

现在您可以创建自己的折线图了,现在让我们学习更多的图表类型了!顺便说一下,如果这是您第一次使用Python编写代码,那么您应该为到目前为止所完成的一切感到非常自豪,因为学习一项全新的技能从来都不是一件容易的事!如果您坚持使用微课程,您会注意到所有事情只会变得更简单(而您将构建的图表将会更令人印象深刻!),因为所有图表的代码都非常相似。像任何技能一样,随着时间的推移和重复,编码变得很自然。在本...
July 16, 2019

Kaggle、Python数据可视化seaborn(二):折线图

现在您已经熟悉了编码环境,接下来学习如何制作自己的图表!在本教程中,您将学习怎样用Python来创建专业的线形图。在接下来的练习中,您将使用您的新技能来处理真实世界的数据集。准备好笔记本我们首先设置编码环境。import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns ...
July 14, 2019

Kaggle、Python机器学习教程(六):随机森林

介绍决策树会让您很难做出决定。 一棵有很多树叶的深树将会过度拟合,因为每个预测都来自其叶子上只有少数房屋的历史数据。 但是叶子很少的浅树会表现不佳,因为它无法捕获原始数据中的那么多区别。即使在今天,最复杂的建模技术也面临着欠装和过度装配之间的这种张力。 但是,许多模型都有聪明的想法,可以带来更好的性能。 我们将以随机森林为例。随机森林使用许多树,并通过平均每个组件树的预测来进行预测。 它通常...
July 13, 2019

Kaggle、Python机器学习教程(五):过拟合和欠拟合

在这一步结束时,您将了解欠拟合和过度拟合的概念,并且您将能够应用这些想法使您的模型更准确。尝试不同的模型既然您有一种可靠的方法来测量模型精度,那么您可以尝试使用其他模型,并查看哪种模型可以提供最佳预测。但是你应该怎样选择模型?您可以在scikit-learn的文档中看到决策树模型有很多选项(比您长期想要或需要的更多)。最重要的选项决定了树的深度。回想一下这个微课程的第一课,树的深度是衡量它在...
July 12, 2019

Kaggle、Python机器学习教程(四):验证模型

你已经建立了一个模型。 但它是否可用?在本课程中,您将学习如何使用模型验证来衡量模型的质量。 测量模型质量是迭代改进模型的关键。什么是模型验证您将要评估您构建的几乎所有模型。在大多数(尽管不是全部)应用中,模型质量的相关度量是预测准确性。换句话说,模型的预测是否接近实际发生的情况。在测量预测准确性时,许多人犯了一个大错误。他们使用他们的训练数据进行预测,并将这些预测与训练数据中的目标值进行比...
July 8, 2019

Kaggle、Python机器学习教程(三):建立第一个机器学习模型

选择建模数据您的数据集有太多的变量,以至于您无法理解,甚至无法很好地打印出来。如何将如此庞大的数据压缩到您能够理解的程度?我们先用直觉选择几个变量。稍后的课程将向您展示自动对变量进行优先排序的统计技术。要选择变量/列,我们需要看到数据集中所有列的列表。这是通过DataFrame的columns属性完成的。#!/usr/bin/python3 # -*- coding: utf-8 -*- ...
July 7, 2019

Kaggle、Python机器学习教程(二):数据探索

使用Pandas熟悉您的数据使用Pandas熟悉您的数据,机器学习项目的第一步都是熟悉数据。 你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。 大多数人在他们的代码中将pandas缩写为pd。 我们使用命令执行此操作import pandas as pdPandas库中最重要的部分是DataFrame。 DataFrame是一个二维的表结构。 这类似于Excel中...