摘要: 突破性研究是具有开创性、前瞻性和引领性的科学研究,可能会引领科学范式的深刻变革。突破性论文是突破性研究的重要载体和表现形式。尽早识别突破性论文对于引领科学研究前沿探索、指导企业研发资源的高效配置以及支撑政府创新战略的前瞻性布局决策具有重要作用。针对目前突破性论文识别研究中存在的不足,即突破性论文识别指标与科学突破性本质缺乏紧密联系,以及引文分析存在的滞后性等问题,提出一种基于机器学习的突破性论文早期识别方法。该方法首先根据突破性论文的本质,从知识突破性、创新性和学科交叉性出发,围绕突破性论文的文本特征、计量特征和作者特征三个维度,构建识别突破性论文的评价指标体系;其次,通过构建机器学习模型获取论文特征与其突破性之间的关联模式,并利用此模式来早期识别突破性论文,解决突破性论文识别的时滞性问题;最后,以生物医学领域为例,验证了该方法的可行性与有效性,为突破性论文的早期识别研究提供了新的研究方法。