首页 理论教育 序列算法与时间序列处理中的字母表和挖掘技术

序列算法与时间序列处理中的字母表和挖掘技术

时间:2023-06-04 理论教育 版权反馈
【摘要】:如果序列中可能出现的单元是一个有限的集合,那么这个集合可以称作Alphabet(字母表),而对此类序列作挖掘的算法可以称为string mining。时间序列处理的数据是在不同时间点上收集到的数据,是序列算法中重要的一种。这种序列反映了某一事物、现象等随时间的变化状态或程度。通常在时间序列算法中要求时间段是相同间隔的。如我国国内生产总值从1949年到2009年的变化、Facebook股价从2016年4月1日到5月12日的变化都是时间序列数据。

序列算法与时间序列处理中的字母表和挖掘技术

数据挖掘中的序列挖掘指的是从一个序列(sequence)数据中找出统计规律。

如果序列中可能出现的单元是一个有限的集合,那么这个集合可以称作Alphabet(字母表),而对此类序列作挖掘的算法可以称为string mining(字符串挖掘)。比如生物遗传学中所有的DNA基因序列都是由A、G、C和T四个字母组成的氨基酸形成的,不同的排列是生物信息学(Bioinformatics)所研究的课题,而该学科采用的不少数据挖掘算法都是序列算法。

时间序列(time series)处理的数据是在不同时间点上收集到的数据,是序列算法中重要的一种。这种序列反映了某一事物、现象等随时间的变化状态或程度。通常在时间序列算法中要求时间段是相同间隔的。如我国国内生产总值从1949年到2009年的变化、Facebook股价从2016年4月1日到5月12日的变化都是时间序列数据。(www.zuozong.com)

时间序列数据可作年度数据、季度数据、月度数据等细分,其中很有代表性的季度时间序列模型就是因为其数据具有四季一样的变化规律,虽然变化周期不尽相同,但是整体的变化趋势都是按照周期变化的。

时间序列通常会在连续的时间流中截取一个时间段,然后让该时间段在整个时间轴上滑动,从而获得需要的训练数据集。比如金融分析师会根据前面29天的货币汇率估计第30天货币汇率的变化;电子商务企业会根据前面99天的销售情况估计第100天和第101天的销售数据;网站联盟会根据前面13个月的点击率和收入情况估计第14个月的总体点击率和收入情况等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈

相关推荐