刘子桦:基于Python关于世界自杀率影响因素的分析以及机器学习预测论文

刘子桦:基于Python关于世界自杀率影响因素的分析以及机器学习预测论文

摘 要

本论文主要通过根据世界卫生组织2018年公布的全球自杀数据与联合国公布的HDI指数,结合世界银行统计的1985-2016年的世界主要国家GDP水平数据建立的数据集为研究与探索数据。利用Python Pandas科学分析库,对影响世界不同国家自杀率的因素进行数据与相关性分析。最后利用机器学习算法训练数据集,获得关于自杀率的预测模型,用于评估与测测国家与地区的自杀风险,从而指导相关政府与机构进行自杀预防工作。

【关键词】自杀率 相关性分析 探索性数据分析 机器学习

1 引言

自杀是一种全球性的现象。根据WHO提供的数据显示,2012年,自杀死亡占全世界死亡总数的1.4%,在2012年的死因排序中居于第15位。

接下来进行岗位评价培训,人事处通过培训使评委对整个评价过程有清晰的认识,对岗位评价各要素、各维度有了较好的掌握,同时充分了解了岗位评估的重要性和自身肩负的使命与责任。

本文利用1985-2016年世界101个国家的自杀人数以及宏观参数的数据集,考虑时间(年),人口,HDI指数,GDP指数以及其衍生变量对自杀率的影响,并且对数据进行相关性分析,探究单个因素与总自杀率的线性相关性。最后利用多元线性回归与随机森林进行预测模型的生成。

推进党务公开对于加强党的领导、改善党的领导具有重要的作用,也是实现全面从严治党目标的重要途径,对新时代推进全面从严治党向纵深发展具有极其重要的意义。

2 相关性分析

2.1 相关分析的工具与实现方法

2.2.2 自杀率与性别组成之间的关系以及国家人类发展指数(HDI)之间的关系

并且使用梯度下降算法,不断缩小损失函数:

此外,在找矿对象上片面地追求所谓找“大矿、超大型矿床”的提法和做法违背了矿床的一般发现规律,也干扰了找矿工作的正常开展。这样的做法和提法则违背了矿床的一般发现规律。

2.2 单一变量相关性分析

对于多元线性回归,我们应该考虑每个特征值xj与其权重w乘积之和:

2.2.3 自杀率与人均GDP之间的关系

图1:随机森林与多元线性回归比较

在探究年龄分布情况时,选取年龄分布为自变量,自杀率为因变量。为了能够更好的表示一个国家的年龄分布,将5-14岁,15-24岁,25-34岁,35-54岁,55-74岁,74岁以上等不同年龄段分别赋予1-6的加权分数并且进行加权平均获得一个总分。利用Sklearn对1985-2015年之间全球的年龄组成与自杀率之间的进行线性拟合。根据相关性分析可知,在全球的范围内,自杀率与年龄组成之间成弱中等线性关系,拟合系数R^2为0.0928。Kendall与Spearmans以及Pearsonr相关系数的值分别为-0.242,-0.206,-0.305。说明二者整体上成负相关,即年龄组成增加(老龄化)会导致自杀率的减少。

本论文主要采用皮尔森相关系数逐个分析单一变量对最后因变量(自杀率)之间的相关程度。相关计算方式如下:估算样本的协方差和标准差,可得到样本皮尔逊系数,常用英文小写字母r代表:

选取男女性别比例为自变量,自杀率为因变量。由线性拟合可知,在全球的范围内,自杀率与年龄组成之间成强线性关系,拟合系数为0.55261。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.540,0.742,0.743。说明二者整体上成强正相关关系,即性别比例的增大会大概率导致自杀率的增大。十分具有参考性,对人口政策具有指导意义。

HDI指数是联合国1990开发计划署创立了人类发展指数,以“预期寿命、教育水平和生活质量”三项基础变量,按照一定的计算方法,衡量各个国家人类发展水平。本文选取不同国家HDI指数为自变量,自杀率为因变量。根据计算显示,在全球的范围内,自杀率与年龄组成之间成弱线性关系,拟合系数为0.578。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.215、0.333、0.241。说明二者整体上成正相关,即性别比例的增大会导致自杀率的增大,但是这种相关关系较弱。

其中、及σx分别是对Xi样本的标准分数、样本平均值和样本标准差。

选取101个不同国家人口的增长速度为自变量,自杀率为因变量。由计算可知,在全球的范围内,自杀率与人口增加率之间成线性关系的拟合系数为0.0185。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.131,0.217,0.135。说明二者整体上成正相关,即人口增长速率增加会导致自杀率的增加,但是这种相关关系十分微弱。

选取不同国家人均GDP为自变量,自杀率为因变量。由计算得知,在全球的范围内,自杀率与人均GDP之间成相关关系的概率很低。拟合函数为0.021,Kendall与Spearmans以及Pearsonr相关系数的值分别为0.161,0.224,0.145,说明二者整体上成正相关,但是这种关系很弱,几乎可以视为不相关。

3 多元线性拟合与决策树及随机森林预测模型构建

3.1 多元线性拟合

2.2.1 自杀率与人口增长速度以及年龄分布之间的关系

所以我们的线性模型为:

由图6(a)可知,弯曲梁的受力情况与微纳测头受Z向载荷时支撑梁的受力情况是一致的,故支撑梁弯曲时试函数与式(1)相同。

r 亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:

本研究根据广西地不容转录组测序的结果开发SSR引物,在此基础上对广西地不容5个居群的63个样品进行遗传分析,以揭示广西地不容在物种水平和居群水平的遗传多样性以及居群间的遗传关系,为其野生资源的保护和分子标记辅助育种等方面提供理论依据。

计算当L(f)最小时候,对应的w与b的值:

在具体实施中,选取在本文中提到的人口增长率、性别比例、年龄组成、以及人均GDP四个相对独立的因素,进行归一化操作,然后合并作为特征向量构成因变量,目标变量为自杀率,生成4维向量进行多元线性回归。整个数据被分为90%的训练集以及10%的测试集。得到的多元线性回归拟合的拟合方程如下:

利用此方程对训练集数据与测试集数据进行线性拟合,结果显示训练集上均方差为0.678,测试集为0.596。

3.2 利用随机森林进行预测

随机森林是利用多棵树对样本进行训练并预测的一种分类器。在本文中,使用50个决策树(Decison Tree)进行概率分类,进行投票程序,最终得到了误差更小,使用度更高的机器学习预测模型。利用随机森林生成的预测模型在训练集上的误差为0.606,在测试集上的误差较为理想,达到了0.098,是比较好的预测模型。如图1所示。

4 结束语

本文通过开放数据集,利用Python Pandas以及scikit-learn进行数据探索与分析,探究了国家宏观因素与自杀率之间的相关系数。并且建立多元回归模型、随机森林预测模型,其中随机森林预测的残差仅为0.0980,起到了很好的自杀率预测效果。

参考文献

[1]Tom M.Mitchell.MachineLearning[M].China Machine Press:China,2005:38.

[2]World Health Organzation.National suicide prevention strategies:progress, examples and indicators[R].Switzerland:WHO,2018.

[3]覃玉冰,邓春林,杨柳.基于皮尔逊相关系数的网络舆情评估指标体系构建研究[J].情报探索,2018,10:2-6.

[4]尹儒门,昌骞,王文剑.一种模型决策森林算法[J].计算机科学与探索,2019,8:1.

[5]徐文彬.中国自杀率随社会经济状况变化的模式研究[D].中国:大连医科大学,2017.

[6]赵玉新.多元线性回归中多重共线性的研究[J].产业与科技论坛,2019,03:1.

作者简介

刘子桦(1996-),男,华南理工大学,设计学院,本科。

对A阵采用“按行消元,逐行规格化”或“逐行规格化,按列消元”方式求取A(n-1)′阵的计算结果虽然完全相同,但计算效率完全不同。许多文献对含规格化的高斯消元法和因子表法均采用“按行消元、逐行规格化”[2-7,9]方式。实际上,“按行消元、逐行规格化”的计算效率低于“逐行规格化,按列消元”。

马若炎(1998-),男,华南理工大学,设计学院,本科。

高校要加强对国有资产管理政策法规和相关规章制度的宣传、培训及学习,培养全体教职人员以及全体学生的主人翁意识和责任感,做到人人关心,人人有责;同时,学校领导及国有资产管理人员还要有足够的管理意识。创新管理观念,是完善高校国有资产管理机制的前提。

作者单位

华南理工大学 广东省广州市 510006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

刘子桦:基于Python关于世界自杀率影响因素的分析以及机器学习预测论文
下载Doc文档

猜你喜欢