excel学习库

excel表格_excel函数公式大全_execl从入门到精通

数据分析-相关性分析可视化

前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。然后把Excel、PowerBI和Python来实现来实现《相关性分析(PowerBI、Excel)》《Python相关性分析》,这个内容今天最后完结,有的时候数据报告可能需要,所以把数据相关性可视化的部分最后补上。

在数据分析中,相关性分析是一种用于探索和量化变量之间关系的重要方法。通过相关性分析,数据分析师可以识别变量之间的依赖关系,从而为进一步的建模和决策提供依据。相关性分析可视化通过直观的图形展示变量间的关系,使复杂的数据模式更易理解和解释。常用的相关性分析可视化方法包括散点图、热图和配对图。

【散点图(Scatter Plot)】

散点图是一种二维图表,用于展示两个变量之间的关系。每个点在图上表示一对数据点的值,横坐标和纵坐标分别表示两个变量。通过观察点的分布形态,可以直观地判断变量之间的相关性类型(正相关、负相关或无相关)。

我们用电商数据中的广告费用投入、访客人数、支付人数、支付金额四个维度举例。我们将生成模拟数据并分别使用Python、R语言和Excel进行相关性分析的可视化展示。

【Python散点图】

首先模拟数据,导入相关的包,然后模拟生成相关数据,代码和结果如下↓

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体为黑体

plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号

import pandas as pd

import numpy as np

import seaborn as sns

np.random.seed(21)

days = 200

ad_spend = np.random.normal(10000, 2000, days) # 广告费用

visitors = ad_spend + np.random.normal(100000, 1000, days) # 访客人数

paying_visitors = (visitors * 0.2 + np.random.normal(2000, 400, days)) # 支付人数

revenue = paying_visitors * 3 + np.random.normal(5000, 1500, days) # 支付金额

data = pd.DataFrame({

'广告费': ad_spend,

'访客': visitors,

'买家数': paying_visitors,

'销售金额': revenue

})

然后简单绘制一个散点图,代码和结果如下↓

# 绘制广告费用与访客人数的散点图

plt.figure(figsize=(10, 5))

plt.scatter(data['广告费'], data['访客'])

plt.xlabel('广告费(元)')

plt.ylabel('访客数')

plt.title('Scatter Plot of Ad Spend vs Visitors')

plt.show()

# 绘制访客人数与支付人数的散点图

plt.figure(figsize=(10, 5))

plt.scatter(data['访客'], data['买家数'])

plt.xlabel('访客')

plt.ylabel('买家数')

plt.title('绘制访客人数与支付人数的散点图')

plt.show()

从结果可以看出,广告费用的投入和访客人数还是有很强的相关性;而访客人数和支付人数之间虽然也是正相关,但是整体相关性不是特别强。

【R语言散点图】

R语言也比较简单,还是同样的数据,绘图代码如下↓

library(ggplot2)

data <- read.delim("clipboard")

library(sysfonts)

library(showtextdb)

library(showtext)

showtext_auto()

ggplot(data, aes(x = 广告费, y = 访客)) +

geom_point() +

labs(title = "广告费与访客数的散点图", x = "广告费", y = "访客数")+

theme(text = element_text(size = 22))

【Excel散点图】

Excel里面直接选择两列,然后插入散点图就行了。

【热图(Heatmap)】

热图是一种用颜色表示数据矩阵的图表,通常用于展示变量之间的相关性矩阵。颜色深浅代表相关系数的大小,颜色变化可以帮助快速识别强相关和弱相关的变量对。

【Python热图】

绘制热图先要计算各列数据之间的相关性,结果是一个矩阵,如下图↓

# 计算相关性矩阵

corr_matrix = data.corr()

然后就对这个矩阵的数据进行可视化,其实就是对数据大小的颜色进行填充,代码和结果如下↓

# 绘制热图

plt.figure(figsize=(8, 6))

sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)

plt.title('Correlation Matrix Heatmap')

plt.show()

【R语言热图】

R语言也是同样的原理,直接上代码↓

library(reshape2)

# 计算相关性矩阵

corr_matrix <- cor(data)

# 绘制热图

corr_melt <- melt(corr_matrix)

ggplot(data = corr_melt, aes(Var1, Var2, fill = value)) +

geom_tile() +

scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +

theme_minimal() +

ggtitle('Correlation Matrix Heatmap')+

theme(text = element_text(size = 30))

【Excel热图】

Excel里面需要分两步,第一步是通过数据分析工具,选择相关性分析;然后设置一下参数,如下↓

结果就是如下的一个数据矩阵↓

最后就是把数据格式按照需求进行条件格式填充即可↓

【配对图(Pair Plot)】

配对图是一种多变量数据的可视化方法,展示所有变量两两组合的散点图,并在对角线上显示每个变量的分布。配对图适用于快速检查多变量之间的相关性和分布模式。

【Python配对图】

# 绘制配对图

sns.pairplot(data,

diag_kws=dict(fill=False))

plt.show()

【R语言配对图】

library(GGally)

# 绘制配对图

ggpairs(data)

GGally包可以有很丰富的可视化功能,这里只是使用最简单的代码就能绘制成比较成型的图形。后续会根据情况单独写一篇完整的介绍。

End

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接