Kaggle、Python机器学习教程(二):数据探索

@高效码农  July 7, 2019

使用Pandas熟悉您的数据

使用Pandas熟悉您的数据,机器学习项目的第一步都是熟悉数据。 你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。 大多数人在他们的代码中将pandas缩写为pd。 我们使用命令执行此操作

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame是一个二维的表结构。 这类似于Excel中的工作表或SQL数据库中的表。

对于您希望使用此类数据进行的大多数事情,Pandas都有强大的方法。

例如,我们将查看澳大利亚墨尔本的房价数据。 在动手练习中,您将相同的流程应用于新的数据集,该数据集在爱荷华州有房价。

示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。

我们使用以下命令加载和浏览数据:

#!/usr/bin/python3
# -*- coding: utf-8 -*-


import pandas as pd

# 将文件路径保存到变量以便于访问
melbourne_file_path = 'melb_data.csv'
# 读取数据并将数据存储在标题为melbourne_data的DataFrame中
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印墨尔本数据中的数据摘要
print(melbourne_data.describe())

2019-07-05T09:12:13.png

解释数据描述

结果显示原始数据集中每一列有8个数字。第一个数字count显示有多少行具有未丢失的值。

缺失值的产生有很多原因。例如,在调查一间只有一间卧室的房子时,不会收集第二间卧室的大小。我们将回到丢失数据的主题。

第二个值是平均值,也就是平均值。在此情况下,std是标准偏差,它度量值在数值上的分布情况。要解释最小值、25%、50%、75%和最大值,请设想将每一列从最低值排序为最高值。第一个(最小的)值是最小值。如果你在列表中查找四分之一,你会发现一个数字大于25%的值,小于75%的值。这就是25%的值(发音为“25%”)。第50和75百分位数的定义类似,最大值是最大的数字。

开始您的第一个编码练习



添加新评论