关键词搜索

源码搜索 ×
×

Python笔记-相关性分析(连续变量和分类变量)

发布2022-02-21浏览13888次

详情内容

概念

相关性分析:两个连续变量之间的关系检验。

Pearson相关系数:衡量两个变量的线性相关关系;

Spearman相关系数:衡量两个变量的线性相关关系,部分非线性的也可以衡量;

Kendall相关系数:衡量两个变量之间非线性相关关系;

0.3以上就是有相关性了,0.3~0.5就是有点强的,0.5以上就是很强的。

下面是分类变量,研究非连续的变量

卡方检验:两个分类变量的分析,是否相关,不能表示强弱。

Python例子

连续变量

代码如下:

  1. from statsmodels.stats.anova import anova_lm
  2. from statsmodels.formula.api import ols
  3. import pandas as pd
  4. from scipy import stats
  5. df = pd.DataFrame(
  6. [
  7. [20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],
  8. [30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]
  9. ],
  10. columns=["age", "income"]
  11. )
  12. if __name__ == '__main__':
  13. print(df[['age', 'income']].corr(method='pearson'), "\n")
  14. print(df[['age', 'income']].corr(method='spearman'), "\n")
  15. print(df[['age', 'income']].corr(method='kendall'), "\n")
  16. print(stats.chi2_contingency(df));
  17. pass

运行截图如下:

 

相关技术文章

点击QQ咨询
开通会员
返回顶部
×
微信扫码支付
微信扫码支付
确定支付下载
请使用微信描二维码支付
×

提示信息

×

选择支付方式

  • 微信支付
  • 支付宝付款
确定支付下载