跨境电商如何使用线性回归模型预测运输费？需要注意哪几点？

发布时间：2022-03-22 125 次浏览

本文笔者将介绍线性回归模型，它可以用来预测未来，是预测性模型。线性回归在供应链中有许多的应用场景，比如说是预测运输费用。法国距离德国很近，因此K公司可以使用现有的数据来预测新市场的运输成本。此时，我们就可以使用线性回归模型来预测运费了。线性回归就是根据已知，预测未知的模型。

导读
笔者将介绍线性回归模型，它可以用来预测未来，是预测性模型。笔者会用预测运输费用的场景，为大家介绍这个模型。

我们经常会听到“建模”这个词，供应链中会涉及到许多的模型应用，比如预测，库存之类，这些都可以通过建立数学模型，经过分析后告诉我们：
发生了什么？（库存为什么这么多？）
将来会怎么样？（库存什么时候会降下去？）
我们该怎么办？（以后该如何合理下订单？）

这些都是基本的供应链模型。本文笔者将介绍线性回归模型，它可以用来预测未来，是预测性模型。笔者会用预测运输费用的场景，为大家介绍这个模型。

一、啥是线性回归模型？

线性回归是高中时候学的，知识早就还给老师了，好在原理并不复杂。

线性回归在供应链中有许多的应用场景，比如说是预测运输费用。假设一家跨境电商K公司打算开拓一个新的海外市场，把货物从中国运到法国销售，每次都是用拼柜LCL出口，想要了解海运成本大概是多少。

由于是新的市场，K公司没有运费的历史数据供参考，好在K公司已在德国设立仓库运营了，所以有一些运费的数据。由于K公司的货物都是体积大但是重量轻的货物，需要根据货物立方数算运费。

运费是从中国工厂提货，到送至海外仓库的全部费用，其中包括了内陆卡车、海上集装箱运输、码头操作和进出口手续费等。

法国距离德国很近，因此K公司可以使用现有的数据来预测新市场的运输成本。此时，我们就可以使用线性回归模型来预测运费了。

先来讲讲什么是回归，它的全名是Regression towards the mean，也就是向平均数回归。

这又是什么概念呢？如果我们把K公司现有的出口德国的50条海运数据拿出来，横轴是货物的立方数，纵轴是对应的运输费用，用散点图来表示出来，看到的就是下图的效果。

看着这张图，直觉告诉我们，似乎有一条直线，可以穿过所有的点。回归就是通过这堆点，来找一条尽可能地在所有点中间的线的过程。

这条红色的直线就是我们要寻找的目标，然后根据它来预测未来运输到法国的运费。线性回归就是根据已知，预测未知的模型。

我们看到实际发生的运费分布在红线的上下，造成差异的原因可能是运费波动，或是因为货物较重，也有其他的可能性，我们不必纠结细节，只需要关注这条红线的整体趋势，这样就能更快捷地预测出未来的运费情况了。

散乱的点不能体现出趋势，而回归的线可以预测未来。回归就是通过一堆看不出具体关系的点，来找一条尽量出现在所有点中间的线，进而让整体关系更加清晰可见，为我们提供洞察。

解释过了回归，再来说一下线性，这个概念是初中时就学过的，就更加简单了，相信大家应该还有印象。

举个例子，出租车计费由两部分组成，首先是固定的起步价，比如16元，哪怕你打车只是去前面200米的地方买份早餐，司机也收你16元，这是最低收费Minimum charge。其次是每公里车费，比如每公里收费2元，距离越远，收费越高。出租车计费的公式就是：车费=2元×公里数+16元

这就是一个经典的线性函数公式： Y=A×X+B

当X为零时，Y的值是16，这就是最低收费的起步价16元了。“线性”是那条直线，找到那条直线的过程就是“线性回归”。

现在我们理解了，所谓线性回归，就是在一堆散点中找出一条含有趋势性的直线，然后根据这种趋势预测未来情况。

二、如何使用线性回归模型？

1.统计分析

搞清楚概念后，我们就要开始找出运输费用中的这条直线了。在K公司的案例中，现有的数据只有2组，分别是每票海运的货物立方数和每票货物的运费，其中包括门到门的运费、港口操作费和进出口费用等。

这两组数值就是函数中的参数，我们要使用它们来找到直线，求解线性函数中的A和B的值。

A是一个系数，在它的影响下，运费会随着货量增加而上涨，这很容易理解，运输的货量越大，收费就越高，成正比关系。

A在线性函数中的名字是斜率，意思是每增加一个单位的货量，会增加多少的运费。

B也是一个系数，就像是前文中的出租车起步价一样，运费里也有最低收费，包括了海上和内陆运输的起步价，另外还有进出口和港口操作的固定收费。
B在线性函数中的名字是截距，也就是当X为零时Y的数值。在现实情况中，出货量不可能为零，X一定是大于零的数。

货物立方数叫做自变量，就是X。运输费用是随着货量而变动的，所以叫做因变量，也就是Y。

整个的公式就等于：海运拼箱运输费用=A×货物立方数+B

只要求出了A和B这两个系数的值，就可以把任何的X值——货物立方数代入公式，算出运输费用了。

K公司运输的汇总统计数据如下表。

2.相关性分析

除了常规的统计外，我增加了一项，就是最后一行的相关性Correlation分析。运输费用和货量是两个变量，它们之间可能存在着一定的相关性。

根据我们的常识，运输的货量越大，运费也就越高，它们之间应该是正相关性，也就是运费随着货量的增加而增加。为了证明这点，我们需要使用相关性分析来验证一下。

在Excel中，使用公式= CORREL(数组，数组) 就可以求得解。相关性的结果是在-1和+1之间。

当相关性为-1时，数组之间是负相关， X的值越高，Y的值越低。比方说天气越热，羽绒服越是卖不出去。

当相关性为0时，数组之间没半毛钱关系。就像是谁是中国首富和我没一丁点儿关系，因为我成不了中国首富，你们爱谁谁。

当相关性为+1，数组就是正相关性，也就是我们运费案例中的情况了。

CORREL(海运拼箱运输费用，海运拼箱运输费用)为1，因为是同一个数组之间分析，结果自然是1。

CORREL(海运拼箱运输费用，货物立方数)是0.81，比较趋向于1了，这个结果告诉我们，两组数据之间的相关性很强，值得进一步分析，来计算出A和B的值。

3.求解过程

求解过程略有点复杂，如果要解释清楚，估计还要花上不少篇幅，所以我就先一笔带过。强大的Excel可以帮我们很快地计算出结果，具体的方法是在“Data—Data analysis”中选择“Regression”回归即可。

如果还没有安装Data analysis模块的朋友，可以在网上搜索一下安装的方法，在此就不做介绍了。如果无法安装，可能是Excel版本的问题，需要进行升级。

求解过程很简单，如上图所示，只需要在“Input Y Range”中，把Y值的数组，也就是运输费用选中，然后在“Input X Range”中，把X值的货物立方数选中，点击“OK”就可以迅速地算出结果。

4.评估模型

在Excel的帮助下，我们可以很轻松地获得模型，但最重要的工作随之而来，就是要评估和验证模型。我们想要确保这个模型是合理的，而且在统计学上是有效的。

根据K公司的50组数据，可以得出这样的结果，里面的信息量较多，由于篇幅有限，本文只解释其中最重要的几个输出Output。

(1) 模型的拟合程度

首先，我们要评估模型的拟合程度，它是回归直线与实际情况的匹配度，也被称为决定系数。在输出结果中，我们重点要关注“ 调整的R平方（Adjusted R Square）”的值。

R平方可以理解为模型能够解释实际情况的百分比。由于要去除自变量个数对R平方的影响，所以叫做调整的R平方，这个数值在0到1之间，数值越大，说明模型的拟合程度越好，越是能够说明问题；如果数值为零，这个模型啥也不是。

在上图中，调整的R平方是65%，说明拟合程度还不错，可以解释65%发生的情况，值得我们进一步分析下去。

(2)A、B系数

看过了整体的拟合程度后，我们要看看单个的系数情况怎么样。在本案例中只有两个系数，是很简单的场景，但在现实情况中肯定会大于这个数量。

还是以出租车为例，计费中有一项是时长费，这是根据行驶时间收费的项目，另外还可能有额外的司机奖励费，比如在春节期间每单要加6元。

为了便于说明，在这里我使用最少的变量进行分析。根据求解结果，我们可以把A和B的值代入公式：

海运拼箱运输费用=
156.41×货物立方数+664.52

假设货物立方数为零时（实际上不可能），运费是664.52，这就是截距。当货物是4个立方，运费就是1290.18。就这样，我们找到了那条直线，只要输入3至15之间的任何一个数，就能够得出运费。

(3) 验证系数

我们还需要对系数进行验证，看看它们是否有效且合理，这里主要是看 P值，它是用来判定假设检验结果的一个参数，P值越小，比如小于0.01，说明系数越是不可能为零。

系数如果是零，说明该系数是无意义的。截距的P值是0.000093，已经足够小了，说明这个系数是可用的，而斜率的P值更小，那就更好了。

(4) 上下限的值

最后是A、B系数上下限的值，这里使用的是模型默认的95%的置信区间情况下的值。

货物立方数系数的下限是123.32，上限是189.51，截距的下限是351.39，上限是977.66。在 95%的置信区间里，系数的上下限就在这个范围内。

这里需要注意的是上下限值不能小于零，否则系数就没意义了。如果系数A是负的，那意味着运输的货量越高，运费反而更低，这是不合理，也是不可能的。因为两个系数的P值都是小于0.01，所以也不会出现上述的情况。

至此，我把这个简单的线性回归模型介绍完毕，本来想着尽量简化内容，但实际看来，里面包含的知识点是很多的，一篇短文恐怕难以讲清楚所有的内容。若有解释不清楚的地方，还请多见谅。

三、建模时的关键点

从模型构建和使用的角度，我们需要重点关注这几个方面。

1.选择模型的自变量

在建模之前，我们可能会有多个自变量X，此时就要想一想，该使用哪些？

我在本文中用了一个最简单的场景，所以只有1个自变量。在实际情况中我们会遇到多个自变量的情况，如果距离、重量等等，需要根据经验来判断、选择合适的自变量。

决定以后，我们要收集自变量的数据，但有些数据可能是缺失的，因此现实情况会更复杂一些，要做好心理准备。选择自变量是建模过程中最难的环节，需要我们对问题有充分的认知。

2.简单就是最好的

根据经验，在模型中尽量少用一些自变量，只要能解释问题就可以了，自变量越多，模型就越复杂。虽然调整的R平方会很高，却是人为“调”出来的，距离现实情况反而更远了。模型最终要在现实中验证，过度拟合可能会偏离实际情况。

3.模型验证

由于Excel可以快速运行分析，计算过程已成为最容易的一步。这导致我们可能想要尽快看到模型结果，忽视了前期思考和选择的过程。

因此，验证模型就更加重要了。调整的 R平方、P值和置信区间的上下限，这三个是最重要的点，我们需要用常识和经验去判断它们是否合理。

总结一下，线性回归模型是供应链经常会使用的工具，听起来很高大上，但是原理并不复杂，使用Excel就能搭建模型。掌握基本的建模技能，可以帮助我们提高逻辑思考和数据分析能力，增加职场竞争力。

作者 | 卓弘毅来源 |?弘毅供应链此文系作者个人观点，不代表物流沙龙立场
案例征集：中国零碳供应链&物流创新方案TOP30
▼

电商物流跨境电商运输跨境

本文标题：跨境电商如何使用线性回归模型预测运输费？需要注意哪几点？

本文链接：https://www.gjkdwl.com/news/kuajingdianshang-30272.html

新闻动态

新闻动态

跨境电商如何使用线性回归模型预测运输费？需要注意哪几点？

相关信息推荐 Related Suggestion