CrisisNLP-C:中文灾害数据集

CrisisNLP-C:中文灾害数据集

论文摘要

当灾害发生时,人们经常使用微博、微信等社交媒体发布文本内容,描述伤亡人员、被困人员、车辆受损及基础设施损坏等情况。如果及时有效地处理这些在线信息,构建相应的机器学习模型,对应急响应组织进行态势感知、舆情应对或者救援活动极为有用。然而,目前对于社交媒体信息的有效处理仍存在众多挑战,比如准确分类这些简短和非正式的文本数据。从根本上讲,这些任务均涉及到数据样本问题,特别是国内目前还缺乏人工标注的中文灾害数据。为此,论文收集了2018年发生的与3起自然灾害相关的微博文本数据,并按照多层级分类方法进行了人工标注。该数据集将有助于业界解决自然语言处理时缺少灾害数据样本的现状,为进一步完善灾害危机应对和舆情管理等提供支持。

论文目录

  • 0 引言
  • 1 数据采集
  •   1.1 灾害事件概述
  •     (1) 台风“温比亚”
  •     (2) 台风“山竹”
  •     (3) 广州汕头暴雨
  •   1.2 数据采集与清洗
  • 2 人工标注
  •   2.1 标注方法及程序
  •   2.2 具体任务
  •     2.2.1 任务1:信息量判别
  •     2.2.2 任务2:信息类型判别
  • 3 结果分析
  • 4 结论与展望
  • 文章来源

    类型: 期刊论文

    作者: 李泽荃,张展,张瑞新,李靖

    关键词: 自然语言处理,自然灾害,应急响应,社交媒体

    来源: 华北科技学院学报 2019年05期

    年度: 2019

    分类: 工程科技Ⅰ辑,信息科技

    专业: 安全科学与灾害防治,计算机软件及计算机应用

    单位: 华北科技学院,应急管理部通信信息中心网络舆情处,中国矿业大学(北京)能源与矿业学院

    基金: 国家重点研发计划项目(2018YFC0808306),中央高校基本科研业务费资助项目(3142017105,3142018050)

    分类号: TP391.1;X4

    页码: 1-5

    总页数: 5

    文件大小: 864K

    下载量: 65

    相关论文文献

    标签:;  ;  ;  ;  

    CrisisNLP-C:中文灾害数据集
    下载Doc文档

    猜你喜欢