竞赛圈   > 【分享】第二名代码方案

大招

算法工程师   |   Python
  • 关注者
  • 关注了

大招

算法工程师   |   Python

思路简要说明:

  1. 利用jieba的tfidf方法筛选出Top20的候选关键词
  2. 针对每条样本的候选关键词提取相应的特征,把关键词提取当作是普通二分类问题。特征可以分为以下两类:1)样本文档自身特征:例如文本的长度、句子数、聚类结果等;2)候选关键词自身特征:关键词的长度、逆词频等;3)样本文本和候选关键词的交互特征:词频、头词频、tfidf、主题相似度等;4)候选关键词之间的特征:主要是关键词之间的相似度特征。5)候选关键词与其他样本文档的交互特征:这里有两个非常强的特征,第一是在整个数据集里被当成候选关键词的频率,第二个与点击率类似,算在整个文档中预测为正样本的概率结果大于0.5的数量(在提这个特征的时候我大概率以为会过拟合,但是效果出乎意料的好,所以也没有做相应的平滑,或许是因为结果只选Top2的关键词,这里概率选0.5会有一定的平滑效果,具体操作请看lgb_predict.py的31-42行)。
  3. 利用LightGBM解决上述二分类问题,然后根据LightGBM的结果为每条文本选出预测概率Top2的词作为关键词输出即可

答辩PPT及代码地址: 

https://github.com/bigzhao/Keyword_Extraction

0条评论

分享

0条评论
意见反馈
关注微信公众号 关注微信公众号

扫一扫分享给周围朋友