2022-06-14

在15分钟内掌握12极简统计分析方法——打好一、二、三、四、五你就能山打虎。

程晓华

2022-6-12

我的新书《全面库存管理的数学分析》上市后,很多读者反馈看不懂。这件事一直让我很郁闷,但我也明白,其实很多人,包括我在内,可能大学里的“高等数学”三门课(高等数学、线性代数、概率与数理统计,一般工科学生的必修课,包括我书中的“高等数学”)都没有学好,可能只是为了应付考试,所以考完就完事了。根本就谈不上。

但在供应链管理中,尤其是核心的供应链计划管理中,我们必须处理数据,不断分析数据,挖掘和提炼背后可能存在的有价值的信号,必要时可能还需要用Excel、R语言等工具做一些简单的统计预测等工作,这就不可避免地需要用到一些所谓的“高等数学”知识。虽然很简单,但是一定要精通。

如果《全面库存管理的数学分析》让你很头疼,建议你耐心点,花十几分钟结合Excel阅读这篇文章。如果你能获得一些兴趣,可以继续看我的书,学习更多实用的数据分析工具和方法论。但是如果你对它不感兴趣,甚至看不懂,那就不要读。

小时候我们都知道一首儿歌叫《12345,上山打老虎》。这里我们以数字y=(1,2,3,4,5)为例。我相信如果你真的能看懂这个12345,你就真的敢上山打老虎了(玩供应链数据分析)!

我们假设这个y=(1,2,3,4,5)是某公司在过去1 ~ 5月的出货情况(即x =(1,2,3,4,5)),其中X代表时间和期间,Y代表期间的出货情况。

我在这里列举了12个小问题,代表12个数学公式和数据分析方法论:

1.过去5个月的平均装运量。

这个问题很简单。估计99.999%的人都能做到。答案是(1+2+3+4+5)/5=3,对应的Excel函数公式是average()。

但是不要小看这个简单的算术平均值(简称mean)计算,这是你对客户需求有一个“数”的第一步,这也是我这本书第一章反复强调的内容——平均值很重要。

根据我个人在供应链管理领域管理人和事的经验,如果你能在不看电脑、不看手机的情况下,随便说出你所负责的一个产品、SKU或型号的周平均需求量,你心里基本上就有个“数”了。

你可以马上用这个“平均”去衡量你身边的人,结果可能会让你失望!

2.截断(0.2)平均值(修剪平均值)

有多少人知道这个所谓的截断平均值?我不太了解,因为如果没有学过R语言,我之前也不知道有这么个东西,所以我相信很多人都不知道(我在做“最大似然估计(MLE)”,总库存管理的数学分析第四章),虽然很多人听说过它的应用,类似于“去掉一个最高分”

这个定义在供应链管理中也非常有用。例如,在评估客户的历史需求时,我们可能会人为地删除那些看似异常的最大值和最小值。至于比例,你自己决定。Excel公式是trimmean(),其中trim本身就是修剪的意思,mean其实就是平均的意思,就像average一样。至于为什么在Excel中不用Trim Mean()做这个表达式,我们会。

我们的例子y=(1,2,3,4,5),数据量很小,数据本身很整齐。不管是trim=0.2还是0.1,0.3,0.4,结果都是3,但是如果你把那个5换成6,再试试这四个比例,它们的结果就不一样了。如果有兴趣,可以模拟更多的数据,看看这个公式到底是什么意思。

3.中位数(中位数)

顾名思义,所谓中值就是序列中间的值。在我们的例子中,一个* * *有五个数字,3是中值,因为前面有两个哥哥,后面有两个妹妹。是第三个孩子!

Excel公式中的中值是median()。

据我所知,这个中值也意味着保持“中立”。不管师兄师姐怎么胡说八道,都是不变的,永远不变。不像算术平均,属于挥杆性质。兄弟姐妹吵的时候,它也跟着吵,所以它有个外号叫“被平均”。比如你把这个12345改成12346,中值还是3,但是平均值从3变成了3.2。所以,很多时候,我们宁愿相信中值,因为这个平均值不太靠谱,而且据说已经出人命了!还听说有个大统计师淹死在平均深度不到1米的河里。

理想情况下,中值和平均值相同,或者大小差不多,所以数据结构分布一般更好,甚至可能是传说中的正态分布。

4.四分位偏差(IQR)

在分析一组数据和一个时间序列时,我们通常可以将数据平均分为四段,这样每段数据占总数据的25%。估计这个“四点”就是这个意思,“四点”之后自然是“五点”,也就是四段五点,这五点可以分别命名为Q 0,Q 1,Q 2。Q 0最小(min),Q 4最大(max),其他分别在25%、50%、75%,这样Q 2就是第三个孩子,但奇怪的是,这里Q 2指的是平均值,不是中位数。我估计统计人员可能搞错了:其他兄弟姐妹都在说“位置”为什么这个Q 2一定是平均值?

四分位数离差(IQR)为IQR = Q3–q 1。在我们的12345的例子中,IQR=Q 3-Q 1 = 4-2 = 2。

在Excel中,有一种图形叫boxplot,它的原理就是这个IQR。只是这个盒子中间是中值,不是Q 2(平均值),和我理解的一样。Q 2应该是一个中值!可惜这个盒子的两边并不完全等于Q 1和Q 4,盒子的上下有两条边界线,应该是下面说的最小和最大离群值,但实际上是Q 0和Q 4,这是我很不理解的——既然这样,这个盒子图的意义是什么?我理想中的盒图应该是这样的:盒子中间是Q 2或中位数,上下盖是Q 1,Q 3表示数据的集中范围,或者表示数据的“分布”范围;上下盖伸出的两根天线分别应为最大和最小异常值,以此定义“正常范围”,天线外的为异常值。我这么认为是因为从供应链管理的角度来看,最大值(max)和最小值(min)是不相关的,它们本身不能代表正常或异常。我们更关心的是所谓的异常,因为供应链管理有所谓的“异常需求”。

我们来谈谈这个问题。

5.异常值(最小异常值、最大异常值)

所谓不正常就是不正常,正常和不正常是相对的。既然是相对的,就要有一个相对的尺度,就是最大异常值和最小异常值。范围内的称为“正常值”,范围外的为异常值。

这个范围被定义为Q2 1.5 iqr。

对于我们的例子y =(1,2,3,4,5),最大异常值是Q2+1.5 iqr = 3+1.5×2 = 6,最小异常值是Q2-1.5 iqr = 3-65438+。但如果把那个5改成6,6肯定是“不正常”的,有兴趣的读者可以用Excel试试那个公式。

需要明确的是,这个所谓的离群值与第二个问题中提到的截断均值中的“截断”部分不是同一个概念——截断值不一定是“离群值”,离群值应该是被截断的对象。这个结论我自己也没有做过严格的数学证明,不过你不妨多弄几个奇怪的数字,然后用Excel模拟验证一下。

6 * * * *.差异

顾名思义,方差就是“差的平方”,统计方差是指一组中的每个数减去其平均值后,差的平方的平均值。

回到我们的例子y=(1,2,3,4,5),平均值为3,y-3后的差值为:(-2,-1,0,1,2),差值的平方为(4,1,2)。其平均值为10/5=2或10/(5-1)=2.5,可以用Excel公式表示。一个是var.p(),一个是var.s(),其中p和s分别代表总体和样本(。在实际应用中,两者都可以使用,因为它们反映了数据的相对分散性,不同的数组可以用同一个公式进行计算和比较。

7.标准偏差

标准差是直接开对方根号得到的。对于我们的例子,我们可以得到的标准差是root (2)=1.414或root (2.5)=1.581,或者我们可以用Excel公式stdev.p()和stdev.s()计算标准差,两个结果都可以接受。

这个所谓的标准差其实就是传说中的适马(σ),而σ就是标准差。如果你认为需求分布符合正态分布,1σ的平均值可以覆盖68%左右的数据分布,2σ的平均值可以覆盖95%左右的数据分布,3σ的平均值可以覆盖99%左右的数据分布。如果你认为需求分布不符合正态分布,那就是随机分布,不过没关系。即便如此,2 σ的平均值可以覆盖约87%的数据分布,3 σ的平均值可以覆盖约95%的数据分布。这是基于马尔可夫不等式得出的结论(《全面库存管理的数学分析》第三章的内容)。

8.需求波动

标准差除以算术平均值就是所谓的波动率,统计学上称为CV(变异系数)。这份简历对于我们分析客户或市场需求非常重要,是需求分类的重要指标之一。

对于我们的12345,需求波动率为1.414/3 = 0.471或1.581/3=0.527。

同样,这种需求波动也是相对的。不同的产品或同一产品来自不同的客户和不同的配送中心,其需求波动性可能不同。在我的《制造业总库存管理》一书中,这种波动性被用于XYZ分类。

波动率也是衡量需求聚集效应的一个非常直观的指标——合并后需求的波动率小于合并前单个需求的波动率之和。

9.一阶差值(差)

所谓一阶差,就是一组数的内减,老大减老二,老二减老三,可以减到最后。很简单,我们的例子得到的一阶差分结果是(1,1,1,1)。

一阶差分是什么意思?

还是我们的例子,y=(1,2,3,4,5)是一条对角线,差分后的序列(1,1,1)是一条水平直线。从供应链管理的角度来看,你更喜欢客户的需求是对角线还是近似水平的?

从统计预测的角度来说,不言而喻,水平直线更好预测,因为需求相对稳定。只是需要大家注意的是,从统计学上讲“稳定”可能和大家脑子里想的不太一致。这个稳定的英文单词是static,意思是需求的移动平均相对稳定。虽然在一定时期内需求可能会有波动,但没有明显的上升或下降趋势。这是“稳需求”,和稳不一样。稳就是稳定,也就是每个时期的需求大致相同。

10.需求趋势函数

对于时间轴x=(1,2,3,4,5),出货y=(1,2,3,4,5)的函数表达式是什么?

我们可以通过两种方式得到结果。一种是用Excel做折线图,添加一条趋势线,选择“线性”并显示公式,我们得到y = x;另一种方法是在Ecxcel中使用index(linest())求y=ax+b中A的值为1,b=0。

函数与方程思维是数学思维宝库的重要组成部分,供应链管理也需要一些函数与方程思维(这部分的详细内容,包括后两个知识点,可以参考《总库存管理的数学分析》第六章)。

11.需求函数的一阶导数

需求函数是y=x,它的一阶导数是y'=1。如果联系第九题来看,会发现这个一阶导数等于一阶微分值,都是1。为什么?

原因很简单,不是很严格的理解,无限差分就是微分,微分后可以求导。一阶差分和一阶导数都表示需求的增长率。

12.预测第6期的需求值。

有了前面的工作,第六期也就是6月份的需求预测就很简单了。我们可以使用三种方法来完成这种统计预测:

一、差分预测法:根据第九题,我们得到的差分序列是(1,1,1,1),这是一条水平直线。然后,很自然地,我们将“外推趋势”,并使用差分方程Y 6-Y 5 = Y 6-

第二种方法是用趋势函数:y=x,当x=6时,y=x=6。

第三种方法是用一阶导数:我们知道这个函数的一阶导数代表的是需求增长率,这个值是1,那么自然地,我们用y ^ 5+1 = y ^ 6 = 5+1 = 6。

当然,简单方便的统计预测方法是平均法,即y ^ 6 = 3或者简单地取上一期的值作为下一期的预测,即y ^ 6 = y ^ 5 = 5。

此外,还可以考虑使用移动平均法,包括一篇文章中提到的“自然加权平均法”来预测6月份的需求。

但是,无论哪个预测结果,还是那句话,对于统计预测,你信,你不信。

写在最后

我相信绝大多数读者都能理解这12知识点,但从理解,到运用,再到熟练运用,甚至运用到炉火纯青,可能需要一个过程。不做点努力是不行的。所以,不要小看这个12345。做好了还可以用来打老虎!你甚至可以认为这是总库存管理数学分析的极简版本。

另外,我把这12个知识点做成了竞猜之星上的试题。链接如下。有时间的话可以邀请身边的同事朋友,尤其是老板们来做做,测试一下智商。

TIM订阅号:ITOOTD