竞赛圈 > 【分享】比赛思路
距离“神策杯”2018高校算法大师赛比赛结束的时间还有10多天,第一名的选手已经霸榜了半月,其他同学请继续加油哦。B榜尚未揭晓,所有队伍都可能是黑马。
分享一种比赛思路,希望能帮到部分同学(思路仅供参考):
1、先对文章分词,计算文章和词的embedding;
2、然后利用文章和词的embedding,通过非监督的方法计算核心词。
计算词和文章embedding,可以参考 Distributed Representations of Sentences and Documents ,
一些可以参考的实现包括gensim.models.doc2vec
https://github.com/epfml/sent2vec
https://github.com/jhlau/doc2vec
计算核心词的非监督方法可以参考 EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings