竞赛圈 > 挖矿中分享
感谢主办方提供的这次机会,也是一直想写个分享,最近忙于数模比赛,终于现在得空,写一些分享。
我们团队使用了5个模型进行average,做的数据处理以及模型,也是针对pay_price!=0的用户,但是有个trick是将训练集预测值大于16000以上的值去除,大于16000以上的值个数就只有几个,但是对总体的rmse影响特别大,去掉前rmse是400-500,去掉以后能到200-300,还有就是要对部分变量的偏度大于0.75的做log1p变换,当然预测label也做log1p变换,总结来说,就是要利用不同模型的优势,这样子AB榜才不会翻车。印象深刻的是其中之一的nn模型能够对B榜造成很大的影响(对于nn来说,训练集是对数据去重去躁以后的结果,不是单单取出pay_price!=0的用户,预测的还是Pay_price!=0的用户)
具体代码参考github链接 挖矿中代码链接
关注微信公众号