竞赛圈 > 挖矿中分享

挖矿中分享

liu_lin

数据挖掘工程师 | C/C++

关注者 10
关注了

liu_lin

数据挖掘工程师 | C/C++

感谢主办方提供的这次机会，也是一直想写个分享，最近忙于数模比赛，终于现在得空，写一些分享。

我们团队使用了5个模型进行average，做的数据处理以及模型，也是针对pay_price!=0的用户，但是有个trick是将训练集预测值大于16000以上的值去除，大于16000以上的值个数就只有几个，但是对总体的rmse影响特别大，去掉前rmse是400-500，去掉以后能到200-300,还有就是要对部分变量的偏度大于0.75的做log1p变换，当然预测label也做log1p变换，总结来说，就是要利用不同模型的优势，这样子AB榜才不会翻车。印象深刻的是其中之一的nn模型能够对B榜造成很大的影响（对于nn来说，训练集是对数据去重去躁以后的结果，不是单单取出pay_price！=0的用户，预测的还是Pay_price！=0的用户）

具体代码参考github链接挖矿中代码链接

4条评论

意见反馈

关注微信公众号

数据科学征程，总有DC陪伴
DC竞赛 DC学院 DC直聘神码童学

商务合作 : 13520118900（张先生）

DC竞赛服务规则 DC竞赛隐私权政策 DC竞赛作弊管理规则

DC竞赛版本更新
关注DC官方微博

加入DC官方QQ群

关注微信公众号

诚征英才联系我们

扫一扫分享给周围朋友

登录

第三方登录

注册

第三方登录

验证邮箱

恭喜您

手机账号绑定

联系DC

挖矿中分享

liu_lin

liu_lin

请选择举报原因：