新闻动态

跨境电商如何使用线性回归模型预测运输费?需要注意哪几点?

发布时间:2022-03-22    97 次浏览

 

导读
笔者将介绍线性回归模型,它可以用来预测未来,是预测性模型。笔者会用预测运输费用的场景,为大家介绍这个模型。

我们经常会听到“建模”这个词,供应链中会涉及到许多的模型应用,比如预测,库存之类,这些都可以通过建立数学模型,经过分析后告诉我们:
发生了什么? (库存为什么这么多?)
将来会怎么样? (库存什么时候会降下去?)
我们该怎么办? (以后该如何合理下订单?)

这些都是基本的供应链模型。本文笔者将介绍线性回归模型,它可以用来预测未来,是预测性模型。笔者会用预测运输费用的场景,为大家介绍这个模型。

一、啥是线性回归模型?

线性回归是高中时候学的,知识早就还给老师了,好在原理并不复杂。

线性回归在供应链中有许多的应用场景,比如说是预测运输费用。假设一家跨境电商K公司打算开拓一个新的海外市场,把货物从中国运到法国销售,每次都是用拼柜LCL出口,想要了解海运成本大概是多少。

由于是新的市场,K公司没有运费的历史数据供参考,好在K公司已在德国设立仓库运营了,所以有一些运费的数据。由于K公司的货物都是体积大但是重量轻的货物,需要根据货物立方数算运费。

运费是从中国工厂提货,到送至海外仓库的全部费用,其中包括了内陆卡车、海上集装箱运输、码头操作和进出口手续费等。

法国距离德国很近,因此K公司 可以使用现有的数据来预测新市场的运输成本 。此时,我们就可以使用线性回归模型来预测运费了。

先来讲讲什么是 回归 ,它的全名是Regression towards the mean,也就是 向平均数回归 。

这又是什么概念呢?如果我们把K公司现有的出口德国的50条海运数据拿出来,横轴是货物的立方数,纵轴是对应的运输费用,用散点图来表示出来,看到的就是下图的效果。



看着这张图,直觉告诉我们, 似乎有一条直线,可以穿过所有的点。 回归就是通过这堆点,来找一条尽可能地在所有点中间的线的过程。



这条红色的直线就是我们要寻找的目标,然后根据它来预测未来运输到法国的运费。 线性回归就是根据已知,预测未知的模型。

我们看到实际发生的运费分布在红线的上下,造成差异的原因可能是运费波动,或是因为货物较重,也有其他的可能性,我们不必纠结细节,只需要关注这条红线的整体趋势,这样就能更快捷地预测出未来的运费情况了。

散乱的点不能体现出趋势,而回归的线可以预测未来。 回归就是通过一堆看不出具体关系的点,来 找一条尽量出现在所有点中间的线,进而让整体关系更加清晰可见,为我们提供洞察 。

解释过了回归,再来说一下 线性 ,这个概念是初中时就学过的,就更加简单了,相信大家应该还有印象。

举个例子,出租车计费由两部分组成,首先是固定的起步价,比如16元,哪怕你打车只是去前面200米的地方买份早餐,司机也收你16元,这是最低收费Minimum charge。其次是每公里车费,比如每公里收费2元,距离越远,收费越高。出租车计费的公式就是: 车费=2元×公里数+16元

这就是一个经典的线性函数公式: Y=A×X+B

当X为零时,Y的值是16,这就是最低收费的起步价16元了。“线性”是那条直线,找到那条直线的过程就是“线性回归”。

现在我们理解了,所谓 线性回归,就是在一堆散点中找出一条含有趋势性的直线,然后根据这种趋势预测未来情况 。

二、如何使用线性回归模型?

1.统计分析

搞清楚概念后,我们就要开始找出运输费用中的这条直线了。在K公司的案例中,现有的数据只有2组,分别是每票海运的 货物立方数和每票货物的运费 ,其中包括门到门的运费、港口操作费和进出口费用等。

这两组数值就是函数中的参数,我们要使用它们来找到直线,求解线性函数中的A和B的值。

A是一个系数,在它的影响下,运费会随着货量增加而上涨,这很容易理解,运输的货量越大,收费就越高,成正比关系。

A在线性函数中的名字是 斜率 ,意思是每增加一个单位的货量,会增加多少的运费。

B也是一个系数,就像是前文中的出租车起步价一样,运费里也有最低收费,包括了海上和内陆运输的起步价,另外还有进出口和港口操作的固定收费。
B在线性函数中的名字是 截距 ,也就是当X为零时Y的数值。在现实情况中,出货量不可能为零,X一定是大于零的数。

货物立方数叫做 自变量 ,就是X。运输费用是随着货量而变动的,所以叫做 因变量 ,也就是Y。

整个的公式就等于: 海运拼箱运输费用=A×货物立方数+B

只要求出了A和B这两个系数的值,就可以把任何的X值——货物立方数代入公式,算出运输费用了。

K公司运输的汇总统计数据如下表。



2.相关性分析

除了常规的统计外,我增加了一项,就是最后一行的 相关性Correlation分析 。运输费用和货量是两个变量,它们之间可能存在着一定的相关性。

根据我们的 常识 ,运输的货量越大,运费也就越高,它们之间应该是正相关性,也就是运费随着货量的增加而增加。为了证明这点,我们需要使用相关性分析来验证一下。

在Excel中,使用公式= CORREL(数组,数组) 就可以求得解。相关性的结果是在-1和+1之间。

当相关性为-1时,数组之间是负相关, X的值越高,Y的值越低。比方说天气越热,羽绒服越是卖不出去。

当相关性为0时,数组之间没半毛钱关系。 就像是谁是中国首富和我没一丁点儿关系,因为我成不了中国首富,你们爱谁谁。

当相关性为+1,数组就是正相关性, 也就是我们运费案例中的情况了。

CORREL(海运拼箱运输费用,海运拼箱运输费用)为1,因为是同一个数组之间分析,结果自然是1。

CORREL(海运拼箱运输费用,货物立方数)是0.81,比较趋向于1了,这个结果告诉我们, 两组数据之间的相关性很强, 值得进一步分析,来计算出A和B的值。

3.求解过程

求解过程略有点复杂,如果要解释清楚,估计还要花上不少篇幅,所以我就先一笔带过。强大的Excel可以帮我们很快地计算出结果,具体的方法是在“Data—Data analysis”中选择“Regression”回归即可。



如果还没有安装Data analysis模块的朋友,可以在网上搜索一下安装的方法,在此就不做介绍了。如果无法安装,可能是Excel版本的问题,需要进行升级。



求解过程很简单,如上图所示,只需要在“Input Y Range”中,把Y值的数组,也就是运输费用选中,然后在“Input X Range”中,把X值的货物立方数选中,点击“OK”就可以迅速地算出结果。

4.评估模型

在Excel的帮助下,我们可以很轻松地获得模型,但最重要的工作随之而来,就是要评估和验证模型。我们想要确保这个模型是合理的,而且在统计学上是有效的。

根据K公司的50组数据,可以得出这样的结果,里面的信息量较多,由于篇幅有限,本文只解释其中最重要的几个输出Output。



(1) 模型的拟合程度

首先,我们要评估模型的拟合程度,它是回归直线与实际情况的匹配度,也被称为决定系数。在输出结果中,我们重点要关注“ 调整的R平方 (Adjusted R Square)”的值。

R平方可以理解为模型能够解释实际情况的百分比。由于要去除自变量个数对R平方的影响,所以叫做调整的R平方,这个数值在0到1之间,数值越大,说明模型的拟合程度越好,越是能够说明问题;如果数值为零,这个模型啥也不是。

在上图中,调整的R平方是65%,说明拟合程度还不错, 可以解释65%发生的情况, 值得我们进一步分析下去。

(2)A、B系数

看过了整体的拟合程度后,我们要看看单个的系数情况怎么样。在本案例中只有两个系数,是很简单的场景,但在现实情况中肯定会大于这个数量。

还是以出租车为例,计费中有一项是时长费,这是根据行驶时间收费的项目,另外还可能有额外的司机奖励费,比如在春节期间每单要加6元。

为了便于说明,在这里我使用最少的变量进行分析。根据求解结果,我们可以把A和B的值代入公式:

海运拼箱运输费用=
156.41×货物立方数+664.52



假设货物立方数为零时(实际上不可能),运费是664.52,这就是截距。当货物是4个立方,运费就是1290.18。就这样,我们找到了那条直线, 只要输入3至15之间的任何一个数,就能够得出运费。

(3) 验证系数

我们还需要对系数进行验证,看看它们是否有效且合理,这里主要是看 P值 ,它是用来判定假设检验结果的一个参数,P值越小,比如小于0.01,说明系数越是不可能为零。

系数如果是零,说明该系数是无意义的。截距的P值是0.000093,已经足够小了,说明这个系数是可用的,而斜率的P值更小,那就更好了。

(4) 上下限的值

最后是A、B系数上下限的值,这里使用的是模型默认的95%的置信区间情况下的值。

货物立方数系数的下限是123.32,上限是189.51,截距的下限是351.39,上限是977.66。在 95%的置信区间 里,系数的上下限就在这个范围内。

这里需要注意的是上下限值不能小于零,否则系数就没意义了。如果系数A是负的,那意味着运输的货量越高,运费反而更低,这是不合理,也是不可能的。因为两个系数的P值都是小于0.01,所以也不会出现上述的情况。

至此,我把这个简单的线性回归模型介绍完毕,本来想着尽量简化内容,但实际看来,里面包含的知识点是很多的,一篇短文恐怕难以讲清楚所有的内容。若有解释不清楚的地方,还请多见谅。

三、建模时的关键点

从模型构建和使用的角度,我们需要重点关注这几个方面。

1.选择模型的自变量

在建模之前,我们可能会有多个自变量X,此时就要想一想,该使用哪些?

我在本文中用了一个最简单的场景,所以只有1个自变量。在实际情况中我们会遇到多个自变量的情况,如果距离、重量等等,需要根据经验来判断、选择合适的自变量。

决定以后,我们要收集自变量的数据,但有些数据可能是缺失的,因此现实情况会更复杂一些,要做好心理准备。选择自变量是建模过程中最难的环节,需要我们对问题有充分的认知。

2.简单就是最好的

根据经验,在模型中尽量少用一些自变量,只要能解释问题就可以了,自变量越多,模型就越复杂。虽然调整的R平方会很高,却是人为“调”出来的,距离现实情况反而更远了。模型最终要在现实中验证,过度拟合可能会偏离实际情况。

3.模型验证

由于Excel可以快速运行分析,计算过程已成为最容易的一步。这导致我们可能想要尽快看到模型结果,忽视了前期思考和选择的过程。

因此,验证模型就更加重要了。调整的 R平方、P值和置信区间的上下限 ,这三个是最重要的点,我们需要用常识和经验去判断它们是否合理。

总结一下,线性回归模型是供应链经常会使用的工具,听起来很高大上,但是原理并不复杂,使用Excel就能搭建模型。掌握基本的建模技能,可以帮助我们提高逻辑思考和数据分析能力,增加职场竞争力。

作者 | 卓 弘毅 来源 |?弘毅供应链 此文系作者个人观点,不代表物流沙龙立场
案例征集:中国零碳供应链&物流创新方案TOP30


 

新闻动态