Python 通过其强大的库和工具支持大数据处理,常用的库如 Pandas、Dask、PySpark 等。以下是几个处理大量数据的 Python 案例:
1. 使用 Pandas 进行数据过滤
import pandas as pd # 读取 CSV 文件,假设有10万行 df = pd.read_csv('large_dataset.csv') # 过滤数据,只保留 "type" 列为 "A" 的数据 filtered_df = df[df['type'] == 'A'] # 保存过滤后的数据 filtered_df.to_csv('filtered_dataset.csv', index=False)
2. 使用 Dask 进行并行计算
import dask.dataframe as dd # 读取大型 CSV 文件 ddf = dd.read_csv('large_dataset.csv') # 进行并行运算,计算 "value" 列的平均值 mean_value = ddf['value'].mean().compute() print(f"平均值是: {mean_value}")
3. 使用 PySpark 进行分布式处理
from pyspark.sql import SparkSession # 创建 Spark 会话 spark = SparkSession.builder.appName("large_data_processing").getOrCreate() # 读取大型 CSV 文件 df = spark.read.csv('large_dataset.csv', header=True) # 使用 SQL 进行数据分析 df.createOrReplaceTempView("table") result = spark.sql("SELECT type, COUNT(*) FROM table GROUP BY type") # 显示结果 result.show()
4. 时间序列分析
假设你有一个包含股票价格的大数据集,你可以使用 Pandas 的时间序列分析功能。
# 将 "date" 列转换为 datetime 类型,并设置为索引 df['date'] = pd.to_datetime(df['date']) df.set_index('date', inplace=True) # 计算 7 天滚动平均 df['7_day_avg'] = df['stock_price'].rolling(window=7).mean()
https://xpanx.com/
评论