Spatio-temporal analysis of bus pickpocketing using association rules based on clustering
-
摘要: 提出了一种基于聚类的时空关联规则的公交犯罪挖掘算法.针对某市一个区的110报警数据库中的大量业务信息进行分析.首先, 通过文本挖掘技术从案情信息中提取时间、地点等信息, 并利用高德地图API的地理编码服务和POI搜索功能对提取的地址信息进行地址匹配, 提取受害人上下车站点、乘坐公交线路等信息.其次, 对提取得到的时空数据进行归并处理.最后, 根据案发时段、季节以及是否节假日进行聚类分析, 然后在簇内进行时空关联规则分析.这种挖掘方法具有以下特点:① 在聚类基础上进行关联规则分析, 减少扫描数据库次数, 大大缩小数据扫描范围, 提高算法效率, 更加适合海量犯罪数据的挖掘.② 聚类后簇内数据具有相似性, 特征更加明显, 在此基础上进行关联规则分析产生较小的频繁项集, 并且提取出置信度较高的规则. ③ 考虑犯罪行为的时空特性, 挖掘过程中同时考虑了案发季节、是否节假日等因素.Abstract: This paper introduced the spatio-temporal association rules based on clustering minging to find out the spatio-temporal crime patterns of bus pickpocketing. It can be carried out through three steps. Firstly, extract time, places and other information from the case information by text extraction. Then, confirm the boarding stations and getting off stations of victims using the geocoding service and POI search capability of Amap API. Divide the bus routes into sections according to the bus stops and merge the crime time into time interval. Thirdly, the analysis of association rules based on clustering is carried out to discover the patterns of bus pickpocketing. The results prove that the proposed mining model has the following characteristics: ① This method can reduce the database scanning times, the candidate item sets amount and improve time efficiency of the searching. ② After clustering, the data in a cluster is similar and the characteristics are more obvious. On this basis, the association rules of high confidence are extracted. ③ When the analysis was carried out, the temporal and spatial characteristics of the bus pickpocketing crime were also considered.
-
表 1 公交扒窃案情描述文本分词及信息提取结果
Tab. 1 Text segmentation and information extraction of the bus pick pocketing case
案情简要信息 分词结果 上车站点 下车站点 上车时间 报警人XXX所报案称其于当天 报警人/n XXX/nr 所/usuo 报案/vi 19时从桃林路灵山路公交车站 称/v 其/rz 于/p 当天/t 19时/t 从/p 乘坐130路公交车, 公交车行至 桃林路灵山路/bussta 公交车站/n乘坐 栖山路龙居路时, 报警人发现放 /v130路/bus公交车/n, /wd 公交车/n 桃林路灵山路 栖山路龙居路 19 于右侧单肩包内的钱包被盗. 行至/v栖山路龙居路/bussta时/ng, /wd 报警人/n 发现/v 放/v 于/p 右侧/f单/b 肩/n 包/v 内/f 的/ude1钱包/n 被盗/vn. ⋮ ⋮ ⋮ ⋮ ⋮ 表 2 公交扒窃案件时空数据表
Tab. 2 spatio-temporal data table of bus pickpocket case
公交线路 公交路段 案发季节 案发时段 案发星期 松江16路 思贤路玉华路-思贤路玉树北路, 思贤路玉树 春季 7-9 6 北路-思贤路江学路, 思贤路江学路-西林花园 811路 刘行-六房, 六房-庞家湾, 庞家湾-广福, 广福- 秋季 15-17 2 宝安公路科福路, 宝安公路科福路-漳浦 松江23路 玉树路欣玉路-松汇路玉树路 冬季 17-19 1 ⋮ ⋮ ⋮ ⋮ ⋮ 表 3 聚类表 1
Tab. 3 Cluster table 1
公交路段 案发季节 案发时段 案发星期 权重(Wi) 聚类结果 虹桥西交通中心-宁虹路申滨路 秋季 7-9 5 1 聚类-1 刘行-六房, 六房-庞家湾, 庞家湾-广福, 广福-宝安公路 秋季 15-17 2 1/7 聚类-1 科福路, 宝安公路科福路-漳浦, 漳浦-北管, 北管-张家厍 亿松路-大同村, 大同村-金都雅苑, 金都雅苑-扶港路西闸路 秋季 17-19 1 1/4 聚类-1 (招呼站), 扶港路西闸路(招呼站)-扶栏机口(招呼站) ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 表 4 基于聚类的时空关联规则提取的强规则
Tab. 4 Efficient rules for spatio-temporal association rules based on clustering
序号 强规则 支持度/% 置信度/% 1 中山北一路同心路-中山北一路西宝兴路⇒7-9 0.40 100.00 2 沪南公路听潮路-沪南公路⇒15-17 0.30 70.59 3 祁迁河桥-胜辛北路胜竹路⇒9-11 0.23 66.67 4 华漕新村-北华路(华漕)⇒7-9 0.23 100.00 5 宁城路国和路-国和路民庆路⇒15-17 0.23 100.00 6 四平路大连路-四平路密云路⇒9-11 0.23 100.00 7 光泽路航津路-航津路地铁站⇒17-19 0.19 100.00 表 5 关联规则分析提取的强规则
Tab. 5 Efficient rules for spatio-temporal association rules
序号 规则 支持度/% 置信度/% 1 人民北路其昌路-其昌路⇒9-11 0.12 53.33 2 昌邑路源深路-昌邑路民生路⇒7-9 0.12 80.00 3 民春路民耀路-民春路民雪路⇒7-9 0.10 63.64 4 九亭地铁站-沪亭北路沪松公路⇒7-9 0.10 58.33 5 临沂北路北园路-临沂北路浦建路⇒7-9 0.10 58.33 6 漕宝路虹莘路-漕宝路星中路⇒9-11 0.10 53.85 7 七莘路莘北路-莘庄⇒17-19 0.10 63.64 表 6 不同聚类簇中提取的相同强规则
Tab. 6 Efficient rules in different clusters
聚类簇 强规则 支持度/% 置信度/% 季节 聚类-1 高科西路莲溪路-高科西路白杨路⇒7-9 0.15 100.00 秋季 聚类-4 高科西路莲溪路-高科西路白杨路⇒7-9 0.11 100.00 冬季 聚类-1 人民东路政海路-人民东路丰海路⇒11-13 0.20 65.76 秋季 聚类-4 人民东路政海路-人民东路丰海路⇒11-13 0.11 55.84 冬季 聚类-1 盈港东路华徐路-盈港东路蟠龙路⇒7-9 0.20 100.00 秋季 聚类-3 盈港东路华徐路-盈港东路蟠龙路⇒7-9 0.13 100.00 春季 聚类-4 盈港东路华徐路-盈港东路蟠龙路⇒7-9 0.11 100.00 冬季 -
[1] HERRMANN C. A micro-level spatiotemporal analysis of crime, place & business establishment type[D]. New York: The City University of New York, 2011. [2] NEWTON A. A study of bus route crime risk in urban areas: the changing environs of a bus journey[J]. Built Environment, 2008, 34(1): 88-103. doi: 10.2148/benv.34.1.88 [3] NEWTON A D. Crime on public transport: `static' and `non-static' (moving) crime events[J]. University of Huddersfield, 2004, 5(3): 25-42. [4] 刘鹏.大数据背景下的摰燎榔瓟犯罪及打防对策[J].山东警察学院学报, 2016, 28(5): 91-98. http://www.cnki.com.cn/Article/CJFDTOTAL-SHGX201605011.htm [5] 郭玮.审查逮捕阶段侦查员证言效力及路径选择--以北京市某区检察院``零口供''型公交扒窃类案件为视角[J].南都学坛, 2015, (5): 76-79. http://www.cnki.com.cn/Article/CJFDTOTAL-LDXT201505017.htm [6] 王敏.公交扒窃罪犯的社会干预机制[J].决策与信息旬刊, 2012(5): 28-28. [7] 胡炜.公交车上犯罪的原因与预防[J].法制与社会, 2013(8): 76-77. http://www.cnki.com.cn/Article/CJFDTOTAL-FZSL201308041.htm [8] AGRAWAL R, IMIELIŃSKI T, SWAMI A. Mining association rules between sets of items in large databases[J]. ACM SIGMOD Record, 1993, 22(2): 207-216. doi: 10.1145/170036 [9] HAN J, KAMBER M. 数据挖掘概念与技术[M]. 范明, 孟小峰, 译. 北京: 机械工业出版社, 2001. [10] 李德仁, 王树良, 史文中, 等.论空间数据挖掘和知识发现[J].武汉大学学报(信息科学版), 2001, 26(6): 491-499. http://www.cnki.com.cn/Article/CJFDTOTAL-WHCH200106004.htm [11] 夏英, 张俊, 王国胤.时空关联规则挖掘算法及其在ITS中的应用[J].计算机科学, 2011, 38(9): 173-176. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA201109040.htm [12] 李晶晶. 时空数据挖掘在环境保护中的应用研究[D]. 长沙: 中南大学, 2008. [13] XUE C J, DONG Q, MA W X. Object-oriented spatial-temporal association rules mining on ocean remote sensing imagery[C]//35th International Symposium on Remote Sensing of Environment (ISRSE35). Beijing, 2013. [14] MENNIS J, LIU J W. Mining association rules in spatio-temporal data: an analysis of urban socioeconomic and land cover change[J]. Transactions in Gis, 2005, 9(1): 5-17. doi: 10.1111/tgis.2005.9.issue-1 [15] 叶文菁, 吴升.基于加权时空关联规则的公交扒窃犯罪模式识别[J].地球信息科学学报, 2014, 16(4): 537-544. http://cdmd.cnki.com.cn/Article/CDMD-10386-1015347138.htm [16] 杨立波.基于聚类的关联规则挖掘算法[J].太原大学学报, 2011, 12(1):113-116. http://cdmd.cnki.com.cn/Article/CDMD-10337-1013146550.htm [17] 袁楠, 金晖, 田玲, 等.基于聚类和模糊关联规则的中医药对量效分析[J].计算机应用研究, 2009, 26(1): 59-61. http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ200901015.htm [18] SETHI P, ALAGIRISWAMY S. Association rule based similarity measures for the clustering of gene expression data[J]. Open Medical Informatics Journal, 2010, 4(1): 63. doi: 10.2174/1874431101004010063 [19] ISAKKI A D P, RAJAGOPALAN S P. Analysis of customer behavior using clustering and association rules[J]. International Journal of Computer Applications, 2012, 43(23): 19-26. [20] 周梅.基于聚类的关联规则交叉销售模型研究[J].现代商业, 2010, (26): 73. doi: 10.3969/j.issn.1673-5889.2010.26.048 [21] 石敏. 基于聚类划分的关联规则在Web日志挖掘中的应用研究[D]. 武汉: 武汉理工大学, 2014. [22] 王慧, 郑涛, 张建岭.基于聚类的关联规则算法在刑事犯罪行为分析中的应用[J].中国人民公安大学学报(自然科学版), 2010, (3): 65-67. http://www.cnki.com.cn/Article/CJFDTOTAL-GOAN201003018.htm [23] AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[C]//Proceedings of the Twentieth Internaltional Conference on Very Large Databases. Santiago, 1994.