2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
在过去的四个部分中,我们深入研究了单个特征(单变量分析),然后考察了成对特征(双变量)。现在是时候享受真正的乐趣了:多变量分析。在这里,我们将三个或更多特征交织在一起,寻找以前根本无法看到的模式。
类比——盲人与大象 🐘
你可能听过这个故事。六个盲人各自触摸大象的不同部位——象鼻、象牙、腿、尾巴、耳朵和身体。每个人描述的内容都完全不同,而且他们都没有错。但是,他们也没有人能看到全貌。
这正是当你孤立地查看特征时所发生的情况。
-
单独看
性别,它告诉你的是妇女和儿童优先 -
单独看
乘客等级,它告诉你的是财富和救生艇使用权 -
单独看
年龄,几乎显示不出什么(相关系数 r = -0.05)
但是将这三者结合起来呢?突然间,你看到了大象的全貌。一等舱的年轻男孩(年龄 < 14 岁)与三等舱的老人的生存几率截然不同。无论是性别、乘客等级还是年龄,单独任何一个都无法揭示这一点。
这就是多变量分析的目的——最终看到完整的大象。
那么,究竟什么是多变量分析?
就是同时调查三个或更多变量。
让我们分解一下:
| 类型 | 涉及的特征数量 | 示例 |
|---|---|---|
| 单变量 | 1 | 年龄分布看起来如何?(一个变量) |
| 双变量 | 2 | 年龄与是否幸存有何关系?(两个变量) |
| 多变量 | 3+ | 年龄 + 性别 + 乘客等级共同如何影响是否幸存? |
每一步都揭示了前一步无法看到的模式。
步骤 1:三方生存率细分——性别 + 乘客等级 + 是否幸存
还记得第 4 部分中的交叉表吗?几乎所有头等舱的女性都幸存下来,但只有少数三等舱的男性幸存。让我们用分组条形图将其可视化。
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 按性别和乘客等级分组的生存率
survival_grouped = df.groupby(['Pclass', 'Sex'])['Survived'].mean().reset_index()
fig, ax = plt.subplots(figsize=(10, 6))
sns免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。