数目关联到要预测的每个当前项目。有关Microsoft时序算法如何运行的详细说明,请参阅AutoregressiveTreeModelsforTimeSeriesA
alysis。可以用两种方式定义Microsoft时序模型的输入数据。为了了解第一种方法,请考虑下表中的输入事例:
fTimeID12001220011200122001
ProductAABB10001100500300
Sales600500900890
Volume
表中的TimeID列包含一个时间标识符,每个日期有两个条目。Product列定义数据库中的产品。Sales列说明指定产品一天的毛利润,Volume列说明仓库中保存的指定产品的数量。在本例中,模型可以包含两个可预测列:Sales和Volume。此外,时序模型的输入数据可定义为如下表所示:TimeID1200122001A_Sales10001100A_Volume600500500300B_Sales900890B_Volume
在上表中,Sales和Volume列分别被拆分成两列,每个列都用产品名称作前缀。结果,TimeID列中每天只有一个条目。该模型包含了四个可预测列:A_Sales、A_Volume、B_Sales和B_Volume。这两种定义输入数据的方法都会使模型中显示相同信息,而输入事例的格式将改变定义挖掘模型的方式。
使用算法时序算法要求要预测的列必须是连续的。每个模型只允许使用一个事例序列。Microsoft时序算法支持特定输入列内容类型、可预测列内容类型和建模标志,这些类型和标志如下表所列。输入列内容类型可预测列内容类型建模标志Co
ti
uous、Key、KeyTime和TableCo
ti
uous和TableNOTNULL和REGRESSOR
所有Microsoft算法均支持一些通用的函数。但是,Microsoft时序算法还支持下表所列的其他函数。LagPredictNodeIdPredictStdevPredictTimeSeriesPredictVaria
ce
f有关对所有Microsoft算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件DMX函数参考。Microsoft时序算法不支持使用预测模型标记语言PMML创建挖掘模型。Microsoft时序算法支持多个参数,这些参数可影响生成的挖掘模型的性能和准确性。下表对各参数进行了说明:参数说明指定在每个时序树中生成一个拆分所需的最小时间段数。默认值为10。控制决策树的增长。减少该值将增加拆分的可能性。增加该值将降低拆分的可能性。默认值为01。提供算法的有关数据周期的提示。例如,如果销售逐年变化,序列中的度量单位是月,则周期为12。此参数采用
的格式,其中的
是任意正数。方括号中的
是可选项,可以按需重复多次。
MINIMUM_SUPPORT
COMPLEXITY_PENALTY
PERIODICITY_HINT
默认值为1。指定用于填充历史数据中空白的方法。默认情况下,数据中不允许存在不规则的空白或参差不齐MISSIr