English 旧版网站

杨宁副研究馆员在国际科学计量学权威期刊Scientometrics发表论文

来源:
知识系统部
发布时间:
2023年09月18日
 

 

20239月,中国科学院成都文献情报中心知识系统部副研究馆员杨宁等在国际科学计量学权威期刊《Scientometrics》上发表论文“A study of BERT-based methods for formal citation identification of scientific data”。

该文认为科学数据引用的研究对于促进数据共享和重用具有十分重要的意义,是科学数据计量与分析研究的基础。为此,识别和标记数据引用信息十分必要。目前,存在许多监督方法,用于识别疾病、药物、蛋白质、症状等实体以及关系提取,但对于科学数据识别及有效性的研究还较少。为填补这一空白,本研究通过人工方式构建了训练数据集,探讨了经典机器学习模型和深度学习模型在识别科学数据引用方面的有效性,并利用训练后的最优模型对论文全文中存在的科学数据引用进行了识别和预测。

该文实证研究结果表明:(1)文中使用的方法可以实现科学数据引用的自动识别和提取,并能解决科技文献与科学数据之间引用关系自动构建的问题;(2)基于BERT的模型在科学数据引用识别任务中具有最佳效果,尤其是BioBERTSciBERT;(3)全文信息对识别结果有关键影响;(4)科学数据的引用仍然以非正式引用为主。

DOI: https://doi.org/10.1007/s11192-023-04833-z

附件下载: