股市走势图如果遇到上面的场景,大家该怎么办?有没有思路,follow me,让我们谈谈一个运营必学数据分析技能——时间序列,老习惯,粘贴百度百科的定义,时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
从定义我们就能看到,时间序列的用途是预测,要求有历史数据的输入,往往依据走势分为:1、长期趋势(通俗来讲,一般需要积累数年的数据才能看出年单位的走势);2、季节变动(这个好说,每年走势在季节上有明显趋势重叠);3、循环变动(这个大家一般喜欢说“周期”,比如房地产周期五年,一个周期走势出现重叠);4、不规则变动(说白了,就是没有找到明显的规律,随机性更强,那建议你也不要用时间序列方法了,但实际上更多牵扯模型深度知识,均是该分类)。
但实际来讲,能关注到该文章的同学更多是互联网运营同学,本文更多还是注重简单通俗可用,不过多渲染模型等高阶玩家知识,那么我们首先来聊聊时间序列的解题思路。
第一步:“看趋势”
开始已经提到,时间序列是要求有历史数据,所以我们第一步就是以时间为X轴,因变量放到Y轴,把历史数据放到excel或者其他数据统计工具,绘制出时间序列趋势图,如果出现下面不规则变动,建议审慎去预测,多补补高阶知识(时间序列模型arima等知识),如果是长期趋势、季节趋势、抑或循环趋势,那么预测这个问题,还是比较好解决,所以,我定义思路的第一步是“看趋势”。看一看,历史经验数据是否趋势明显,是否时间序列方法是合理较优的方法。
不规则趋势
长期趋势图据我所知,各大福彩体彩投注点,在这一步做的非常好,历史趋势放在看板,当然有没有趋势,一千个读者有一千个哈姆雷特了。
彩票的看板管理第二步:“看分布”
第一步我们用眼睛就可以决定是否用时间序列,或者时间序列大致是哪种类型的,第二步实际上需要用些统计知识,我们需要观察离散值、极值、周期颗粒度(季节性、法定节假日、大小月等等)、拟合线(excel选项就可以绘制,其实用眼你也就看出,未来预测的整体是上升还是下降)。
趋势线如果遇到离散值,结合极值与实际业务常识,判断是错误数据还是特殊样本,决定是否需要剔除或者平滑处理(分箱技巧后续再与大家分享),当然我们希望你处理数据干净且简单,趋势明显。
第三步:“选模型组合”
既然第一步与第二步基础工作都做好,下面就是我们的预测核心,如果是简单预测工作,我们可以用简单移动平均就可以hold,原理很简单就是消减预测的错误程度,找到最小的偏差,做法也可以很简单,找相邻节点差值去平均,将差值再平均作为浮动的偏差,然后去预测下个节点。从下图中我们就看出了,预测线变得更加平缓,这样寻求预测偏差最优。
移动平均使用移动平均(也叫MA模型),互联网运营可以搞定不少预测问题,如果操作细节不熟悉,可以百度下,操作真的很简单,但是效果比较显著,被打脸概率或者程度肯定比你拍的强。但是实际上如果想进一步剥离时间序列内涵,或者进一步提升预测准确性,我们需要下面的解题思路。
“多模型组合” 三个臭和尚顶得上一个诸葛亮
一般实际业务刚才提到四种规律共同作用下的结果,所以如果去解剖模型可以从四个规律模型去组合拟合,模型公式大致如下:
Y=a1*A模型(长规律)+b1*B模型(季节规律)+c1*C模型(周期规律)+d1*D模型(随机不可解释规律)
首先使用移动平均分离周期规律影响,得出平滑趋势,然后计算移动平均预测线与实际线的偏差损失线(实际上就是移动平均预测值与实际值相减),上面的两步已经确定初步损失函数,并且将周期规律、季节规律两个模型合并到损失函数里,通过逐步选择移动步数(就是分段大小)确定最优损失函数。
然后在刚才平滑趋势,引入长规律模型,一般就是回归模型(损失函数是最小二乘法),保证重要的长趋势预测能力最准确,该模型是最重要的模型,综合来说,时间序列数据的预测值就是长期趋势(线性回归估计值)+循环效应(循环周期各位置的均值)+周期效应(业务周期各位置的均值)。这就意味着,能通过时间长度和所在周期的位置给出一个未知时间点的预测值。
高阶玩家感兴趣,可以自行百度:AR模型、MA模型和ARMA模型区别,相信你会更进一步了解时间序列模型。
自回归移动平均模型第四步:“验证优化”
第四步实际上往往更重要,吹的牛是否刺破就要看这步,实际上是模型再学习,我们认识事物,尤其面临预测黑盒问题,时间是我们最好的工具,需要不断新样本引入,我们才能预测更加准确。
时间序列预测准确率一般不高,这是实话,但是他也有他独到优势,简单可解释性强,如果出现持续打脸境地,希望可以参照如下规则:一是做“事后诸葛亮”,即连续追踪数据,若连续出现上涨或者下跌,或者出现“史无前例”的最大值和最小值,那么就要考虑数据的结构性变化可能出现了,就要放弃原先的建模方式;二是从业务决策上“明察秋毫”,数据出现结构性变化,往往是较大的决策改变或者产品迭代引起的,那么反过来思考,若业务出现一些“重大改变”,也许就应该重新建模了。
允许我皮下如果数据出现波动,我们需要进一步观察是否细节忽略,调优模型,不断发现新规律与新随机波动,逐步针对随机找到好的解释,逐步解剖出合理的循环规律,逐步优化出更合理的长规律回归模型,共同优化我们的预测目标。
讲到这里我们这一节“时间序列”也结束了,如果感觉不错,建议关注我,看看我历史文章,而且以后不断有数据分析专题知识推送哦!