Seaborn - 统计估计

在大多数情况下,我们处理的是对数据整体分布的估计。 但是当涉及到集中趋势估计时,我们需要一种特定的方法来总结分布。 均值和中位数是估计分布集中趋势的常用技术。

在我们在上一节中学习的所有图中,我们对整个分布进行了可视化。 现在,让我们讨论一下我们可以用来估计分布的集中趋势的图。


条形图

barplot() 显示分类变量和连续变量之间的关系。 数据以矩形条表示,其中条的长度表示该类别中数据的比例。

条形图表示集中趋势的估计。 让我们使用"titanic"数据集来学习条形图。

示例

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

输出

barplot

在上面的例子中,我们可以看到每个类中男性和女性的平均存活数。 从图中我们可以了解到,女性存活的人数多于男性。 在男性和女性中,头等舱的幸存者人数较多。

barplot 中的一个特例是显示每个类别中观察值的数量,而不是计算第二个变量的统计数据。 为此,我们使用 countplot()

示例

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()

输出

条形图

从图中我们可以了解到,三等舱的乘客人数比头等舱和二等舱的多。


点图

点图与条形图的作用相同,但风格不同。 估计值由另一个轴上特定高度处的点表示,而不是完整的条形图。

示例

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

输出

zSymbol