Python三工具助力，数模高手轻松养成

未分类 1年前 (2025) 程序员胖胖胖虎阿

319 0 0

文章标题：

Python三大工具助你成为数据建模达人

文章内容

在Python的编程世界里，各类包就好似一个个装满实用工具的百宝箱。对于想要开展数据分析、科学计算以及数据可视化的新手来说，numpy、pandas和matplotlib这三个包堪称必不可少的得力帮手。它们能够极大地提升编程效率，让复杂的数据处理与可视化工作变得轻而易举。不过，在运用这些包的强大功能之前，我们得先学会怎样正确导入它们。接下来，就让我们一步步深入探究这三个包的导入方式以及基础应用，为开启数据处理与分析的奇妙之旅做好准备。

Numpy包的导入与基础运用

导入Numpy

numpy，全称为Numerical Python，主要用于处理多维数组以及进行高效的矩阵运算。在Python中导入numpy非常简单，只需在代码起始处输入如下语句：

import numpy as np

这里的as np是一种约定俗成的写法，相当于给numpy这个包取了一个简洁的别名。这样一来，在后续代码中调用numpy包内的各种函数和功能时，直接使用np就可以了，既便捷又能让代码显得更为简洁。例如，numpy中用于创建数组的函数array，就可以写成np.array。

Numpy基础用法示例

创建数组：

arr = np.array([1, 2, 3, 4, 5])
print(arr)

上述代码中，np.array([1, 2, 3, 4, 5])创建了一个包含数字1到5的一维数组，并将该数组赋值给变量arr。随后，使用print()函数将这个数组打印出来。

two_d_arr = np.array([[1, 2, 3], [4, 5, 6]])
print(two_d_arr)

这里np.array([[1, 2, 3], [4, 5, 6]])创建了一个2行3列的二维数组，第一行是[1, 2, 3]，第二行是[4, 5, 6]，并将其赋值给two_d_arr变量，再通过print()函数展示这个二维数组。

一维数组：数组在numpy中是一种非常重要的数据结构。创建一维数组时，把想要包含在数组中的数据用方括号括起来，作为参数传递给np.array()函数即可。例如：
二维数组：二维数组可以看作是一个表格，有行有列。创建二维数组时，传入一个由多个列表组成的列表，每个内部列表代表二维数组的一行。例如：
数组运算：

arr = np.array([1, 2, 3, 4, 5])
result = arr * 2
print(result)

此处，arr * 2会将数组arr中的每一个元素都乘以2，得到一个新的数组result，然后打印出这个新数组。

arr = np.array([1, 2, 3, 4, 5])
sum_result = np.sum(arr)
print(sum_result)

np.sum(arr)会把数组arr中所有元素相加，得到的结果赋值给sum_result变量并打印。类似地，计算数组元素的平均值可以使用np.mean()函数：

arr = np.array([1, 2, 3, 4, 5])
mean_result = np.mean(arr)
print(mean_result)

np.mean(arr)会计算数组arr元素的平均值，并将结果赋值给mean_result变量后打印。

元素级运算：numpy的强大之处在于能够快速对数组中的每个元素进行运算。比如，想要把数组中的每个元素都乘以2，只需要简单地使用乘法运算符*：
统计运算：numpy提供了许多便捷的函数来计算数组元素的统计量。例如，计算数组元素的和，可以使用np.sum()函数：
数组索引与切片：

arr = np.array([1, 2, 3, 4, 5])
element = arr[2]
print(element)

这里arr[2]表示获取数组arr中索引为2的元素，也就是第三个元素（因为索引从0开始），并将其赋值给element变量后打印。

arr = np.array([1, 2, 3, 4, 5])
sub_arr = arr[1:3]
print(sub_arr)

arr[1:3]表示从索引为1的元素开始（即第二个元素），到索引为3的元素之前（不包括第四个元素），将这部分元素组成一个新的子数组赋值给sub_arr变量，最后打印这个子数组。

索引：通过索引，可以获取数组中特定位置的元素。在numpy数组中，索引是从0开始的。例如，要获取数组arr的第三个元素：
切片：切片操作允许获取数组的一部分。比如，要获取数组arr从第二个元素到第四个元素（不包括第四个元素）的子数组，可以这样写：

Pandas包的导入与应用

导入Pandas

pandas是Python中用于数据处理和分析的核心库。它提供了两种主要的数据结构：Series（一维数据）和DataFrame（二维数据，类似表格），还有大量用于数据清洗、转换和分析的函数。导入pandas的常用方式如下：

import pandas as pd

和numpy一样，as pd给pandas包取了一个简洁的别名，方便后续在代码中调用其功能。

Pandas基础操作

读取数据：

data = pd.read_csv('data.csv')
print(data.head())  # 查看前5行数据

pd.read_csv('data.csv')会读取data.csv文件中的数据，并将其存储为一个DataFrame对象，赋值给data变量。data.head()则用于查看这个DataFrame的前5行数据，便于快速了解数据的大致结构。

data = pd.read_excel('data.xlsx')
print(data.head())

同样，pd.read_excel('data.xlsx')会将Excel文件中的数据读取为DataFrame对象，data.head()用于查看前5行数据。

CSV文件：CSV（Comma-Separated Values）文件是一种常见的数据存储格式。使用pandas读取CSV文件非常简便。假设我们有一个名为data.csv的文件，代码如下：
Excel文件：pandas也支持读取Excel文件。如果有一个名为data.xlsx的Excel文件，可以这样读取：
数据筛选：

data = pd.read_csv('data.csv')
filtered_data = data[data['column_name'] > 10]
print(filtered_data)

这里data['column_name'] > 10会生成一个布尔值的Series，True表示对应行的column_name列的值大于10，False则表示不大于。然后将这个布尔值Series作为索引，从data这个DataFrame中筛选出对应True的行，组成新的DataFrame对象filtered_data并打印。

data = pd.read_csv('data.csv')
filtered_data = data[(data['column_name_1'] > 10) & (data['column_name_2'] =='specific_value')]
print(filtered_data)

这里(data['column_name_1'] > 10) & (data['column_name_2'] =='specific_value')通过&运算符将两个条件连接起来，表示同时满足这两个条件。同样会生成一个布尔值的Series，再用它从data中筛选出符合条件的行，赋值给filtered_data并打印。

基于条件筛选：在数据分析中，常常需要从数据中筛选出满足特定条件的行。例如，要从数据中筛选出某一列大于特定值的行。假设data.csv文件中有一列名为column_name，要筛选出这一列中值大于10的行：
多条件筛选：有时需要同时满足多个条件来筛选数据。比如，筛选出某一列大于10且另一列等于特定值的行。假设还有一列名为column_name_2，特定值为'specific_value'：
数据清理：

data = pd.read_csv('data.csv')
data = data.dropna()

data.dropna()会返回一个新的DataFrame，其中所有包含缺失值的行都被删除了，然后将这个新的DataFrame重新赋值给data变量。如果想填充缺失值为某个特定值，比如0，可以使用fillna()方法：

data = pd.read_csv('data.csv')
data = data.fillna(0)

data.fillna(0)会将data中所有的缺失值替换为0，生成一个新的DataFrame并重新赋值给data。

data = pd.read_csv('data.csv')
data['column_name'] = pd.to_numeric(data['column_name'])

pd.to_numeric(data['column_name'])会尝试将data['column_name']这一列的字符串数据转换为数值类型，如果转换成功，会返回一个新的数值类型的Series，然后将其重新赋值给data['column_name']，从而更新了data中这一列的数据类型。

处理缺失值：真实世界的数据中往往存在缺失值。pandas提供了多种方法来处理这些缺失值。比如，要删除包含缺失值的行，可以使用dropna()方法：
数据类型转换：有时候数据列的类型可能不符合分析需求，需要进行转换。例如，将某一列的数据类型从字符串转换为数值类型。假设data.csv中有一列column_name的数据类型是字符串，要将其转换为数值类型，可以使用pd.to_numeric()函数：

Matplotlib包的导入与数据可视化

导入Matplotlib

matplotlib是Python中广泛使用的数据可视化库，它能够创建各种精美的静态、动态以及交互式的可视化图表，让数据以直观易懂的图形形式呈现出来。通常使用以下方式导入：

import matplotlib.pyplot as plt

这里的plt是matplotlib.pyplot的简写，通过这个别名，能够方便地调用matplotlib中各种绘图相关的函数。

Matplotlib绘图示例

折线图：折线图常用于展示数据随时间或其他连续变量的变化趋势。下面是绘制一个简单折线图的代码：

import numpy as np
import matplotlib.pyplot as plt

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])
plt.plot(x, y)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('简单折线图')
plt.show()

首先，导入了numpy和matplotlib.pyplot。然后，使用np.array()函数创建了两个数组x和y，分别作为折线图的横坐标和纵坐标数据。接着，plt.plot(x, y)函数根据x和y的数据绘制折线。plt.xlabel('X轴')用于设置横坐标的标签为“X轴”，plt.ylabel('Y轴')设置纵坐标标签为“Y轴”，plt.title('简单折线图')则给图表添加了标题“简单折线图”。最后，plt.show()函数将绘制好的图表显示出来。

散点图：散点图用于展示两个变量之间的关系，通过点的分布情况可以观察数据的趋势或规律。以下是绘制散点图的代码示例：

import numpy as np
import matplotlib.pyplot as plt

x = np.random.rand(50)
y = np.random.rand(50)
plt.scatter(x, y)
plt.xlabel('X变量')
plt.ylabel('Y变量')
plt.title('散点图')
plt.show()

这里同样导入了numpy和matplotlib.pyplot。np.random.rand(50)函数生成了50个0到1之间的随机数，分别赋值给x和y作为散点图的横纵坐标数据。plt.scatter(x, y)函数根据这些数据绘制散点图。之后，同样通过plt.xlabel()、plt.ylabel()和plt.title()函数分别设置坐标轴标签和图表标题，最后用plt.show()显示图表。

柱状图：柱状图适合用于比较不同类别之间的数据大小。绘制柱状图的代码如下：

import matplotlib.pyplot as plt

categories = ['A', 'B', 'C', 'D']
values = [10, 20, 15, 25]
plt.bar(categories, values)
plt.xlabel('类别')
plt.ylabel('数值')
plt.title('柱状图')
plt.show()

在这段代码中，定义了一个包含类别名称的列表categories和一个对应类别的数值列表values。plt.bar(categories, values)函数根据这两个列表绘制柱状图，每个类别对应一个柱子，柱子的高度由values中的数值决定。接着，通过plt.xlabel()、plt.ylabel()和plt.title()函数设置坐标轴标签和图表标题，最后用plt.show()将绘制好的柱状图显示出来。

总结

numpy、pandas和matplotlib这三个包在Python的数据分析、科学计算和数据可视化工作流程中起着至关重要的作用。通过正确导入它们，能够迅速利用其丰富且强大的功能。对于初学者而言，熟练掌握这些包的导入及基础用法，就像掌握了开启数据处理大门的钥匙，为构建高效的数据分析和可视化工作流程奠定了坚实的基础。这不仅能够提升工作效率，还能帮助我们更有效地从海量数据中挖掘出有价值的信息。

版权声明：程序员胖胖胖虎阿发表于 2025年7月4日上午10:11。
转载请注明：

Python三工具助力，数模高手轻松养成

| 胖虎的工具箱-编程导航