九、箱形图
箱形图又称为盒须图、盒式图或箱线图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

- 中位数:按顺序排列的一组数据中居于中间位置的数
- 上四分位数Q3:一组数据排序后处于75%((1+n)/4*3)位置上的值
- 下四分位数Q1:一组数据排序后处于25%((1+n)/4)位置上的值
- 四分位距IQR=Q3-Q1
- 内限:最大值Q3+1.5IQR,最小值Q1-1.5IQR
- 外限:最大值Q3+3IQR,最小值Q1-3IQR
- 异常值:内限与外限之间,中度异常,在外限以外,极度异常
箱形图的绘制步骤:
- 画数轴:度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长;
- 画一个矩形盒:两端分别对应数据批的上下四分位数(Q3和Q1)。在矩形盒内部中位数位置画中位线;
- 画内限和外限:箱型图一般没有标出内限和外限;
- 画上边缘和下边缘:从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间;
- 用"〇"标出中度异常值,用"*"标出极度异常值;相同值的数据点并列标出在同一数据线位置上。
1、plt.plot.box()
- vert:是否垂直,默认True
- positions:占位
箱形图着色:
- boxes:箱线的颜色
- whiskers:竖线的颜色
- medians:中位线的颜色
- caps:边缘线的颜色
df = pd.DataFrame(np.random.rand(10, 5), columns = list("ABCDE"))
color = dict(boxes = 'DarkGreen', whiskers = 'DarkOrange', medians = 'DarkBlue', caps = 'Gray')
df.plot.box(ylim = [0, 1.2],
color = color,
positions = [1, 4, 5, 6,

828

被折叠的 条评论
为什么被折叠?



