中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于随机森林的犯罪风险预测模型研究

王雨晨 过仲阳 王媛媛

王雨晨, 过仲阳, 王媛媛. 基于随机森林的犯罪风险预测模型研究[J]. 华东师范大学学报(自然科学版), 2017, (4): 89-96. doi: 10.3969/j.issn.1000-5641.2017.04.008
引用本文: 王雨晨, 过仲阳, 王媛媛. 基于随机森林的犯罪风险预测模型研究[J]. 华东师范大学学报(自然科学版), 2017, (4): 89-96. doi: 10.3969/j.issn.1000-5641.2017.04.008
WANG Yu-chen, GUO Zhong-yang, WANG Yuan-yuan. A forecasting model of crime risk based on random forest[J]. Journal of East China Normal University (Natural Sciences), 2017, (4): 89-96. doi: 10.3969/j.issn.1000-5641.2017.04.008
Citation: WANG Yu-chen, GUO Zhong-yang, WANG Yuan-yuan. A forecasting model of crime risk based on random forest[J]. Journal of East China Normal University (Natural Sciences), 2017, (4): 89-96. doi: 10.3969/j.issn.1000-5641.2017.04.008

基于随机森林的犯罪风险预测模型研究

doi: 10.3969/j.issn.1000-5641.2017.04.008
基金项目: 

国家自然科学基金人才培养项目 J1310028

详细信息
    作者简介:

    王雨晨, 男, 硕士研究生, 研究方向为数据挖掘.E-mail:wangyc_ecnu@qq.com

    通讯作者:

    过仲阳, 男, 教授, 博士生导师, 研究方向为数据挖掘和遥感图像处理.E-mail:zyguo@geo.ecnu.edu.cn

  • 中图分类号: TP18

A forecasting model of crime risk based on random forest

  • 摘要: 犯罪预测是犯罪预防的前提,也是公安部门亟待解决的问题.随机森林作为一种组合分类方法,具有准确率高、速度快、性能稳定的特性,且能够给出指标重要性评价,本文将其应用于犯罪风险预测中.实验证明,随机森林方法选出的指标集可以显著地提高预测准确率,基于该方法构建的预测模型相较于神经网络与支持向量机具有更高的准确性和稳定性,能够满足犯罪风险预测的需求.
  • 图  1  不同标准下的指标重要性排序

    Fig.  1  Importance order of the variables using different measure

    图  2  同指标集的OOB误差率

    Fig.  2  OOB error rates of different variables sets

    表  1  指标名称及编号

    Tab.  1  ID of the variables

    指标名称编号指标名称编号指标名称编号
    性别101民族106经济状况111
    年龄102婚姻状况107有无固定职业112
    身高103文化程度108是否本区居住人口113
    体重104政治面貌109有无吸毒史114
    籍贯105身份110社会关系犯罪记录115
    下载: 导出CSV

    表  2  指标重要性度量

    Tab.  2  Importance of the variables using different measures

    编号Mean decrease in accuracyMean decrease in Gini
    1010.0050319.63
    1020.03655214.98
    1030.01385136.85
    1040.01885136.48
    1050.04228295.13
    1060.0025826.54
    1070.03430119.25
    1080.02142121.41
    1090.000026.51
    1100.00009243.64
    1110.0029120.58
    1120.0026515.07
    1130.0257157.73
    1140.05124160.77
    1150.0188872.81
    下载: 导出CSV

    表  3  各模型参数设置及相应结果

    Tab.  3  Prediction accuracy for each model using different parameters

    神经网络支持向量机随机森林
    节点数迭代数更新率准确率gamma损失准确率变量数棵数准确率
    63000.010.72870.01500.728712000.7694
    73000.010.72950.05500.753822000.7736
    83000.010.74730.1500.757132000.7703
    93000.010.73190.15500.740942000.7627
    103000.010.73360.2500.740852000.7602
    81000.010.73270.110.72872500.7636
    82000.010.73270.1200.752221000.7711
    83000.010.74730.1500.757122000.7736
    84000.010.73920.1700.742523000.7661
    85000.010.71410.11000.735224000.7686
    83000.0050.7344
    83000.010.7473
    83000.050.7295
    83000.10.7433
    83000.50.7311
    下载: 导出CSV

    表  4  各模型预测准确率

    Tab.  4  Prediction accuracy for each data

    实验
    次数
    基准模型神经网络支持向量机随机森林
    准确率准确率精度召回率准确率精度召回率准确率精度召回率
    10.51190.70450.70860.67030.76250.79500.69190.76250.79870.6865
    20.51790.73770.75560.67330.76610.76800.73760.79240.82490.7228
    30.50490.76960.78870.74270.77450.80650.72820.79900.82980.7573
    40.52240.74130.73400.71880.73380.71790.72910.76370.77090.7188
    50.57420.73210.67190.72470.75360.69430.75280.78470.75000.7416
    60.52290.70120.68320.69700.71330.70260.69190.73490.74180.6818
    70.52370.74170.79470.68330.76780.81540.71950.77250.83070.7104
    80.52650.69840.69940.63690.73280.71910.71510.76190.76650.7151
    90.53470.74040.72730.70720.73780.72070.71270.76610.74460.7569
    100.53660.72340.80220.64320.72580.80000.65200.76120.82810.7004
    均值0.52760.72900.73660.68970.74680.75400.71310.76990.78860.7192
    标准差0.01890.02240.04720.03480.02080.04760.02860.01840.03780.0265
    F分数0.71240.73300.7523
    下载: 导出CSV
  • [1] 赵军.我国犯罪预测及其研究的现状、问题与发展趋势[J].湖南大学学报(社会科学版), 2011, 25(3): 155-160. http://www.cnki.com.cn/Article/CJFDTOTAL-HDXB201103033.htm
    [2] 金光, 钱家麒, 钱江波, 等.基于数据挖掘决策树的犯罪风险预测模型[J].计算机工程, 2003, 29(9): 183-185. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJC200309070.htm
    [3] 王慧, 王京.属性约简的决策树分类算法对未成年人犯罪行为的分析[J].中国人民公安大学学报(自然科学版), 2011(4): 29-32. http://www.cnki.com.cn/Article/CJFDTOTAL-GOAN201104009.htm
    [4] 李明, 薛安荣, 王富强, 等.犯罪量动态优化组合预测方法[J].计算机工程, 2011, 37(17): 274-278. doi:  10.3969/j.issn.1000-3428.2011.17.092
    [5] 于红志, 刘凤鑫, 邹开其.改进的模糊BP神经网络及在犯罪预测中的应用[J].辽宁工程技术大学学报(自然科学版), 2012, 31(2): 244-247. http://www.cnki.com.cn/Article/CJFDTOTAL-FXKY201202025.htm
    [6] 陈鹏, 胡啸峰, 陈建国.基于模糊信息粒化的支持向量机在犯罪时序预测中的应用[J].科学技术与工程, 2015, 15(35): 54-57. doi:  10.3969/j.issn.1671-1815.2015.35.010
    [7] HAN J W, MICHELINE K, PEI J.数据挖掘:概念与技术[M].北京:机械工业出版社, 2015: 245-249.
    [8] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. doi:  10.1023/A:1010933404324
    [9] 方匡南, 吴见彬, 朱建平, 等.随机森林研究方法综述[J].统计与信息论坛, 2011, 26(3): 32-38. http://www.cnki.com.cn/Article/CJFDTOTAL-TJLT201103007.htm
    [10] 林成德, 彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报(自然科学版), 2007, 46(2): 199-203. http://www.cnki.com.cn/Article/CJFDTOTAL-XDZK200702011.htm
    [11] 张华伟, 王明文, 甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报(理学版), 2006, 41(3): 139-143. http://www.cnki.com.cn/Article/CJFDTOTAL-LYTS201611013.htm
    [12] ANANTHA M P, LOUIS R I, ANDY L. Newer classification and regression tree techniques: Bagging and random forests for ecological Prediction[J]. Ecosystems, 2006, 9: 181-199. doi:  10.1007/s10021-005-0054-1
    [13] CAROLIN S, ANNE L B, THOMAS K, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9: 307-317. doi:  10.1186/1471-2105-9-307
    [14] VERIKAS A, GELZINIS A, BACAUSKIENE M. Mining data with random forests: A survey and results of new tests[J]. Pattern Recognition, 2011, 44: 330-349. doi:  10.1016/j.patcog.2010.08.011
    [15] RAMON D U, SARA A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinformatics, 2006, 7: 3-15. doi:  10.1186/1471-2105-7-3
    [16] 姚登举, 杨静, 詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报(工学版), 2014, 44(1): 137-141. http://www.cnki.com.cn/Article/CJFDTOTAL-JLGY201401024.htm
    [17] CAROLIN S, ANNE L B, ACHIN Z, et al. Bias in random forest variable importance measures: Illustrations, sources and a solution[J]. BMC Bioinformatics, 2007, 8: 25-45. doi:  10.1186/1471-2105-8-25
  • 加载中
图(2) / 表(4)
计量
  • 文章访问数:  240
  • HTML全文浏览量:  85
  • PDF下载量:  506
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-06-28
  • 刊出日期:  2017-07-25

目录

    /

    返回文章
    返回