梯度提升树回归训练

发送反馈


使用说明

同梯度提升树分类方法类似,梯度提升树回归是应用梯度提升树模型解决回归问题,即可以进行连续值的预测。
该方法进行梯度提升树回归的数据训练过程,可以根据数据特征得到模型,进而用于预测。

返回梯度提升树回归模型汇总:

参数说明

参数名 默认值 参数释义 参数类型
连接信息
  训练数据的连接信息,从设置中选择需要进行训练的数据集。 String
数据查询条件
(可选)
  数据查询条件,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31) String
建模字段
  建模字段名称。用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。该方法中建模字段为分类整数。 String
解释字段
  解释字段名称集合。该集合输入训练数据集的一个或多个字段名称作为模型的解释变量。 String
距离解释变量数据集
(可选)
  距离解释变量数据集集合,数组中的对象使用 ExplanatoryDistanceRDD 进行构建。距离解释变量数据集包括 距离解释变量数据集、搜索距离。计算给定的训练解释变量数据集与输入的训练数据集的最近距离,自动创建一列解释变量(解释变量名称为输入的 distanceFieldName )。如果输入训练距离解释变量数据集,则在利用模型进行预测时,必须输入预测距离解释变量数据集,且与训练模型时创建的解释变量名称对应,预测距离解释变量数据集使用同一个搜索距离。 ExplanatoryDistanceRDD
最大迭代次数
(可选)
100 最大迭代次数,必须大于0。一般来说,该数值太小容易欠拟合,太大容易过拟合,默认值为100。 Integer
树的深度
(可选)
30 树的深度,对树进行的最大分割数。取值范围0-30,默认值为30。如果使用较大的最大深度,则将创建更多分割,这可能会增大过度拟合模型的可能性。 Integer
训练时使用数据百分比
(可选)
1.0 指定用于每棵梯度提升树的要素百分比,取值范围0-1.0,默认值为1.0,表示100%的数据。对每棵梯度提升树使用较低百分比的输入数据可以提高针对大型数据集的工具速度。 Double
损失函数类型
(可选)
SQUARED 判断残差大小的一种方式,残差值越小拟合效果就越好。Squared、Absolute就是计算残差的方式,一般情况下选择Squared。如果数据中存在大量异常值,则选择Absolute,Squared方法会放大误差值。 JavaGBTLossType
叶子节点分裂阈值
(可选)
1 叶子节点分裂阈值,保留叶子(即未进一步进行分割的树上的终端节点)所需的最小观测值数。取值范围>0,默认值为1。对于非常大的数据,增大这些数值将减小工具的运行时间。 Integer
模型保存目录
(可选)
  基于梯度提升树回归模型指定的保存目录。 String