竞赛圈 > 微额借贷人品预测大赛之武功秘籍
微额借贷用户人品预测大赛已进行了一半,各路英雄已经厮杀的不要不要的,从前半段的心路历程里,我们总结了参赛者们遭遇较多的问题,看看是不是这些问题你没有注意到呢?是不是这些小细节绊住了你的脚步呢?赛程还有一半,冲(shen)刺(mi)阶(huo)段(dong)就在前方,正是大家整顿再出发的时间,如果你还有问题,请不要客气,在社区【参赛者疑问收集】中告诉我们,折磨主办方也好,我们挖脑洞也好,总会告诉你的。
问题1:人品预测大赛数据集是否会给出哪一些feature是离散的?
回答:下载地址链接: http://pan.baidu.com/s/1bnBgO5h
密码: hkmi
文件说明:
features_type.csv为本次比赛的1138个特征的类型资料;
feature为特征名:x1, x2, x3…
type为特征类型:numeric(数值型)或category(类别型)
问题2:semi-supervised learning 怎么评定?
回答:为了符合真实应用场景的要求。测试集(test_x.csv)中的数据不得用于模型训练。(请使用semi-supervised learning的参赛者特别注意本条规则)
问题3:人品预测大赛数据集哪些特征是数值型特征,哪些是类别型特征
回答:特征描述下载地址:http://pan.baidu.com/s/1bnBgO5h
密码: hkmi
问题4:如何提交?
回答:标准动作如下,但文件提交经常有小伙伴出问题,所以我们在【这里】提供了细致的Tips,请笑纳。
1) 以csv格式提交,编码为UTF-8,第一行为表头;
2) 内含两列,一列为”uid”,另一列为”score”;
3) uid对应测试集中样本的”uid”,”score”为参赛者的分类器给该样本的评分。score越高,表明该样本越可能是正样本(y=1)。
4)如果还没有搞清楚,请使用文字提交,100%正确率哦。
问题5:数据集的数据中有包含时间跨度信息或者是在多久之内采集的信息么?
回答:这些包含时间跨度信息的数据,采集的是近1年的信息.
问题6:请问一下数据特征没有名字吗,如果只是x1,x2这样的就不能利用一些相关知识了吧
回答:没有特征名,由于数据和商业保密的需要,名称都进行脱敏处理了,希望大家理解。
问题7:请问数值型和类别型的数据具体是什么样的特征?特征类型:numeric(数值型)或category(类别型)
回答:数值特征指的是(存款,贷款额度,身高,年龄等),类别特征是指(性别,学历,民族,信仰等)
大家还有什么问题,可以跟帖留言.
感谢您关注DataCastle.