Kaggle、Python数据可视化seaborn(一):你好,seaborn

@高效码农  July 15, 2019

欢迎使用数据可视化:
在这个动手实践的微课程中,您将学习如何使用seaborn(一种功能强大但易于使用的数据可视化工具)将您的数据可视化提升到新的水平。 要使用seaborn,您还将学习如何使用Python(一种流行的编程语言)编写代码。 那说,

  • 微课程针对那些没有任何编程经验的人,
  • 每个图表使用简短的代码,使得seaborn比许多其他数据可视化工具(例如Excel)更快更容易使用。

所以,如果你从未编写过一行代码,并且想要了解最低限度,以便开始制作更快,更具吸引力的情节,那么你就是在正确的地方! 要查看您将要制作的一些图表,请查看下面的图表。
2019-07-11T09:27:27.png

编码环境

现在花点时间在这个页面上快速滚动。 您会注意到有很多不同类型的信息,包括:

  • 文字(就像你现在正在阅读的文字一样!),
  • 代码(始终包含在称为代码单元格的灰色框内),以及
  • 代码输出(或运行代码的打印结果,始终显示在相应代码的正下方)。

我们将这些页面称为Jupyter笔记本(或者通常只是笔记本),我们将在整个微课程中使用它们。 笔记本的另一个例子可以在下面的图像中找到。
2019-07-11T09:28:30.png

在您正在阅读的笔记本中,我们已经为您运行了所有代码。 很快,您将使用可以编写和运行自己的代码的笔记本!

设置笔记本

您需要在每个笔记本的顶部运行几行代码来设置编码环境。 现在理解这些代码行并不重要,因此我们暂不讨论细节。 (请注意,它将作为输出返回:Setup Complete。)

import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.data_viz_to_coder.ex1 import *
print("Setup Complete")
本地无法运行?

加载数据

在这个笔记本中,我们将使用六个国家的历史FIFA排名数据集:阿根廷(ARG),巴西(BRA),西班牙(ESP),法国(FRA),德国(GER)和意大利(ITA)。 数据集存储为CSV文件(逗号分隔值文件的缩写)。在Excel中打开CSV文件会显示每个日期的行,以及每个国家/地区的列。
2019-07-11T09:39:09.png

要将数据加载到笔记本中,我们将使用两个不同的步骤,在下面的代码单元中实现,如下所示:

  • 首先指定可以访问数据集的位置(或文件路径),然后
  • 使用文件路径将数据集的内容加载到笔记本中。
# Path of the file to read
fifa_filepath = "../input/fifa.csv"

# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)

2019-07-11T09:40:56.png

请注意,上面的代码单元有四条不同的行。

评论
其中两行前面有一个井号(#),并包含显示为褪色和斜体的文本。

运行代码时,计算机完全忽略了这两行,并且它们只出现在此处,以便任何读取代码的人都可以快速理解它。 我们将这两行称为注释,并且最好包含它们以确保您的代码易于解释。

可执行代码
另外两行是可执行代码,或由计算机运行的代码(在这种情况下,用于查找和加载数据集)。

第一行将fifa_filepath的值设置为可以访问数据集的位置。 在这种情况下,我们为您提供了文件路径(在引号中)。 请注意,此行可执行代码正上方的注释提供了它的功能的快速描述!

第二行设置fifa_data的值以包含数据集中的所有信息。 这是通过pd.read_csv完成的。 紧接着是三个不同的文本(上图中带下划线),括在括号中并用逗号分隔。 这些用于在数据集加载到笔记本中时自定义行为:

  • fifa_filepath- 始终需要首先提供数据集的文件路径。
  • index_col ="Date" - 当我们加载数据集时,我们希望第一列中的每个条目表示不同的行。 为此,我们将index_col的值设置为第一列的名称("Date",在Excel中打开时在文件的单元格A1中找到)。
  • parse_dates = True - 这告诉笔记本将每个行标签理解为日期(而不是具有不同含义的数字或其他文本)。

当您有机会在动手练习中加载自己的数据集时,这些细节将很快变得更有意义。

现在,重要的是要记住运行两行代码的最终结果是我们现在可以使用fifa_data从笔记本中访问数据集。

顺便说一句,你可能已经注意到这些代码行没有任何输出(而你在笔记本中早先运行的代码行返回Setup Complete作为输出)。 这是预期的行为 - 并非所有代码都会返回输出,这段代码就是一个很好的例子!

检查数据

现在,我们将快速查看fifa_data中的数据集,以确保正确加载。

我们通过编写一行代码来打印数据集的前五行,如下所示:

从包含数据集的变量开始(在本例中为fifa_data),然后
用.head()跟着它。
您可以在下面的代码行中看到这一点。

# Print the first 5 rows of the data
fifa_data.head()

输出:
2019-07-11T09:47:05.png

现在检查前五行是否与上面的数据集图像一致(从我们看到它在Excel中看起来的样子)。

绘制数据

在这个微课程中,您将了解许多不同的情节类型。 在许多情况下,您只需要一行代码来制作图表!

要了解您将学习的内容,请查看下面生成折线图的代码。

# Set the width and height of the figure
plt.figure(figsize=(16,6))

# Line chart showing how FIFA rankings evolved over time 
sns.lineplot(data=fifa_data)

输出:

<matplotlib.axes._subplots.AxesSubplot at 0x7fba11c00240>

2019-07-11T09:48:50.png

这段代码还没有意义,您将在即将到来的教程中了解更多相关内容。 现在,继续第一次练习,您将有机会亲自体验编码环境!

开始你的练习:https://www.kaggle.com/scratchpad/kernel9cc17fde63/edit



添加新评论