中文期刊论文数据采集技术研究

中文期刊论文数据采集技术研究

论文摘要

基于图像处理和版面分割等技术,提出一种可快速检索中文期刊论文得到题目、作者、摘要等结构化数据的方法。该方法可以对中文期刊论文的PDF文件或图像文件进行分析处理,自动形成一些结构化的图像块数据,最终转化为结构化的文字数据,以帮助用户准确地获取或检索论文信息。实验结果表明,本方法对中文期刊论文进行数据采集具有一定的有效性。

论文目录

  • 1 概述
  • 2 论文基本信息的特征分析
  •   2.1 页眉的检测
  •   2.2 论文题目、作者、关键词等的特征分析
  • 3 论文信息提取的算法
  •   3.1 论文信息提取的算法流程
  •   3.2 图像处理
  •   3.3 投影法判别论文基本信息
  • 4 实验结果
  • 5 结束语
  • 文章来源

    类型: 期刊论文

    作者: 李家辰,张一凡,旷远有,张雪海,沈沂亭

    关键词: 图像处理,版面分析,投影法,中文期刊

    来源: 电脑知识与技术 2019年35期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 北方工业大学信息学院

    基金: 北京市大学生科学研究与创业行动计划资助

    分类号: TP391.41

    DOI: 10.14004/j.cnki.ckt.2019.4220

    页码: 188-189+203

    总页数: 3

    文件大小: 1769K

    下载量: 48

    相关论文文献

    标签:;  ;  ;  ;  

    中文期刊论文数据采集技术研究
    下载Doc文档

    猜你喜欢