2020年 第5期
2020, (5): 1-9.
doi: 10.3969/j.issn.1000-5641.202091005
摘要:
现代多核主存数据库在高竞争的负载下仍然不能达到理想的性能. 获得高吞吐量的障碍是试图访问相同数据的并发冲突事务. 这些事务争用相同的资源, 在传统数据库中必须串行执行. 促销活动中的电子商务(电商)负载就是这种高冲突的事务. 本研究从两个方面对电商负载的事务处理方案进行了优化. 首先, 由于产品数量有限, 许多购买请求不会成功. 数据库系统可以通过提前过滤掉无效请求来节省资源、降低锁竞争. 其次, 大量的写操作针对同一商品, 故在写操作之间实现锁共享, 再次降低锁竞争. 基于此想法本文实现了原型系统Filmer. 大量的实验表明, 过滤和合并可以提高处理高竞争电商负载的效率.
现代多核主存数据库在高竞争的负载下仍然不能达到理想的性能. 获得高吞吐量的障碍是试图访问相同数据的并发冲突事务. 这些事务争用相同的资源, 在传统数据库中必须串行执行. 促销活动中的电子商务(电商)负载就是这种高冲突的事务. 本研究从两个方面对电商负载的事务处理方案进行了优化. 首先, 由于产品数量有限, 许多购买请求不会成功. 数据库系统可以通过提前过滤掉无效请求来节省资源、降低锁竞争. 其次, 大量的写操作针对同一商品, 故在写操作之间实现锁共享, 再次降低锁竞争. 基于此想法本文实现了原型系统Filmer. 大量的实验表明, 过滤和合并可以提高处理高竞争电商负载的效率.
2020, (5): 10-20.
doi: 10.3969/j.issn.1000-5641.202091002
摘要:
随着云计算的盛行, 用户对云数据库的需求越发复杂, 而当下基于共享存储的一写多读的云数据库系统并不能支持写性能的动态扩展. 多个主节点同时提供写服务, 会引起跨节点的读写冲突, 进而导致多主节点缓存不一致. 对于这个问题, 基于全局有序的事务日志的乐观冲突检测可以检测出跨节点事务冲突, 并回滚冲突的事务, 维持整个系统的隔离级别与一致性. 另外, 通过广播和回放全局有序的事务日志, 可以将主节点的修改同步到其余节点, 保证每个节点的独立服务能力. 这一基于事务日志的多主缓存一致性解决方案已实现在开源数据库MySQL上,并通过实验验证了该解决方案对系统性能的影响.
随着云计算的盛行, 用户对云数据库的需求越发复杂, 而当下基于共享存储的一写多读的云数据库系统并不能支持写性能的动态扩展. 多个主节点同时提供写服务, 会引起跨节点的读写冲突, 进而导致多主节点缓存不一致. 对于这个问题, 基于全局有序的事务日志的乐观冲突检测可以检测出跨节点事务冲突, 并回滚冲突的事务, 维持整个系统的隔离级别与一致性. 另外, 通过广播和回放全局有序的事务日志, 可以将主节点的修改同步到其余节点, 保证每个节点的独立服务能力. 这一基于事务日志的多主缓存一致性解决方案已实现在开源数据库MySQL上,并通过实验验证了该解决方案对系统性能的影响.
2020, (5): 21-32.
doi: 10.3969/j.issn.1000-5641.202091015
摘要:
基于以太坊的智能合约已经广泛应用于各个领域, 然而合约开发需要完备的专业领域知识和编程能力. 针对智能合约编程友好性, 本文提出了一种对于特定领域智能合约自动生成的方法. 实现了对于智能合约的聚类分析以及交易类智能合约基本函数代码的生成, 对于生成的代码采用BLEU以及SmartCheck进行检测, 得到了较好的检测结果. 采用MFC将生成的代码和UI控件链接, 为用户提供友好的智能合约编程页面, 实现智能合约的自动生成. 方法生成的智能合约代码有一定的准确性, 能够对智能合约的开发提供帮助. 最后, 通过一个案例分析验证了生成的智能合约的可用性.
基于以太坊的智能合约已经广泛应用于各个领域, 然而合约开发需要完备的专业领域知识和编程能力. 针对智能合约编程友好性, 本文提出了一种对于特定领域智能合约自动生成的方法. 实现了对于智能合约的聚类分析以及交易类智能合约基本函数代码的生成, 对于生成的代码采用BLEU以及SmartCheck进行检测, 得到了较好的检测结果. 采用MFC将生成的代码和UI控件链接, 为用户提供友好的智能合约编程页面, 实现智能合约的自动生成. 方法生成的智能合约代码有一定的准确性, 能够对智能合约的开发提供帮助. 最后, 通过一个案例分析验证了生成的智能合约的可用性.
2020, (5): 33-43.
doi: 10.3969/j.issn.1000-5641.202091012
摘要:
针对云存储中电力设备图像面临着被攻击、篡改或丢失等风险, 提出一种适用于云端电力设备图像的完整性审计方案. 首先, 将每个图像切割成4个图像块, 再采用尺度不变特征转换(Scale Invariant Feature Transform, SIFT)算法对所有图像块进行特征提取. 然后, 把每个图像的4个图像块作为一个叶子节点来构建Merkle哈希树(Merkle Hash Tree, MHT). 最后, 在树中节点增设访问等级位和更新状态位. 理论分析和实验结果表明, 该方案应用于图像完整性审计时具有较低的计算开销和较高的审计效率, 并且对图像的不完整区域能够进行准确的定位, 因此更加适用于云端电力设备图像的完整性审计工作.
针对云存储中电力设备图像面临着被攻击、篡改或丢失等风险, 提出一种适用于云端电力设备图像的完整性审计方案. 首先, 将每个图像切割成4个图像块, 再采用尺度不变特征转换(Scale Invariant Feature Transform, SIFT)算法对所有图像块进行特征提取. 然后, 把每个图像的4个图像块作为一个叶子节点来构建Merkle哈希树(Merkle Hash Tree, MHT). 最后, 在树中节点增设访问等级位和更新状态位. 理论分析和实验结果表明, 该方案应用于图像完整性审计时具有较低的计算开销和较高的审计效率, 并且对图像的不完整区域能够进行准确的定位, 因此更加适用于云端电力设备图像的完整性审计工作.
2020, (5): 44-55.
doi: 10.3969/j.issn.1000-5641.202091014
摘要:
自“数据+业务”的双中台架构被提出以来, 中台间数据进行安全交互的效能显得尤为重要. 基于此, 本研究提出了一种高效的交互式协议, 在借助区块链双链结构保证数据安全可信的情况下, 改善了内生性数据在中台间交互效率低的问题. 对新协议中核心的门限签名技术进行实验模拟的结果表明新协议在链下签名、链上验签过程中比传统单一链上签名及验签的方法节省了42.1%的时间成本. 新协议对中台融合区块链技术、加快中台与区块链的广泛实践均具有积极推动作用.
自“数据+业务”的双中台架构被提出以来, 中台间数据进行安全交互的效能显得尤为重要. 基于此, 本研究提出了一种高效的交互式协议, 在借助区块链双链结构保证数据安全可信的情况下, 改善了内生性数据在中台间交互效率低的问题. 对新协议中核心的门限签名技术进行实验模拟的结果表明新协议在链下签名、链上验签过程中比传统单一链上签名及验签的方法节省了42.1%的时间成本. 新协议对中台融合区块链技术、加快中台与区块链的广泛实践均具有积极推动作用.
2020, (5): 56-67.
doi: 10.3969/j.issn.1000-5641.202091004
摘要:
传统的图像描述模型通常基于使用卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)的编码器-解码器结构, 面临着遗失大量图像细节信息以及训练时间成本过高的问题. 提出了一个新颖的模型, 该模型包含紧凑的双线性编码器(Compact Bilinear Encoder)和紧凑的多模态解码器(Compact Multi-modal Decoder), 可通过细粒度的区域目标实体特征来改善图像描述. 在编码器中, 紧凑的双线性池化(Compact Bilinear Pooling, CBP)用于编码细粒度的语义图像区域特征, 该模块使用多层Transformer编码图像全局语义特征, 并将所有编码的特征通过门结构融合在一起, 作为图像的整体编码特征. 在解码器中, 从细粒度的区域目标实体特征和目标实体类别特征中提取多模态特征, 并将其与整体编码后的特征融合用于解码语义信息生成描述. 该模型在Microsoft COCO公开数据集上进行了广泛的实验, 实验结果显示, 与现有的模型相比, 该模型取得了更好的图像描述效果.
传统的图像描述模型通常基于使用卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)的编码器-解码器结构, 面临着遗失大量图像细节信息以及训练时间成本过高的问题. 提出了一个新颖的模型, 该模型包含紧凑的双线性编码器(Compact Bilinear Encoder)和紧凑的多模态解码器(Compact Multi-modal Decoder), 可通过细粒度的区域目标实体特征来改善图像描述. 在编码器中, 紧凑的双线性池化(Compact Bilinear Pooling, CBP)用于编码细粒度的语义图像区域特征, 该模块使用多层Transformer编码图像全局语义特征, 并将所有编码的特征通过门结构融合在一起, 作为图像的整体编码特征. 在解码器中, 从细粒度的区域目标实体特征和目标实体类别特征中提取多模态特征, 并将其与整体编码后的特征融合用于解码语义信息生成描述. 该模型在Microsoft COCO公开数据集上进行了广泛的实验, 实验结果显示, 与现有的模型相比, 该模型取得了更好的图像描述效果.
2020, (5): 68-82.
doi: 10.3969/j.issn.1000-5641.202091001
摘要:
深度神经网络(Deep Neural Network, DNN)模型通过巨大的内存消耗和高计算量来实现强大的性能, 难以部署在有限资源的硬件平台上. 通过模型压缩来降低内存成本和加速计算已成为热点问题, 近年来已有大量的这方面的研究工作. 主要介绍了4种具有代表性的深度神经网络压缩方法,即网络剪枝、量化、知识蒸馏和紧凑神经网络设计; 着重介绍了近年来具有代表性的压缩模型方法及其特点; 最后, 总结了模型压缩的相关评价标准和研究前景.
深度神经网络(Deep Neural Network, DNN)模型通过巨大的内存消耗和高计算量来实现强大的性能, 难以部署在有限资源的硬件平台上. 通过模型压缩来降低内存成本和加速计算已成为热点问题, 近年来已有大量的这方面的研究工作. 主要介绍了4种具有代表性的深度神经网络压缩方法,即网络剪枝、量化、知识蒸馏和紧凑神经网络设计; 着重介绍了近年来具有代表性的压缩模型方法及其特点; 最后, 总结了模型压缩的相关评价标准和研究前景.
2020, (5): 83-94.
doi: 10.3969/j.issn.1000-5641.202091007
摘要:
网络是一种常用的数据结构, 在社交、通信和生物等领域广泛存在, 如何对网络顶点进行表示是学术界和工业界广泛关注的难点问题之一. 网络顶点表示学习旨在将顶点映射到一个低维的向量空间, 并且能够保留网络中顶点间的拓扑结构. 本文在分析网络顶点表示学习的动机与挑战的基础上, 对目前网络顶点表示学习的主流方法进行了详细分析与比较, 主要包括基于矩阵分解、基于随机游走和基于深度学习的方法, 最后介绍了衡量网络顶点表示性能的方法.
网络是一种常用的数据结构, 在社交、通信和生物等领域广泛存在, 如何对网络顶点进行表示是学术界和工业界广泛关注的难点问题之一. 网络顶点表示学习旨在将顶点映射到一个低维的向量空间, 并且能够保留网络中顶点间的拓扑结构. 本文在分析网络顶点表示学习的动机与挑战的基础上, 对目前网络顶点表示学习的主流方法进行了详细分析与比较, 主要包括基于矩阵分解、基于随机游走和基于深度学习的方法, 最后介绍了衡量网络顶点表示性能的方法.
2020, (5): 95-112.
doi: 10.3969/j.issn.1000-5641.202091011
摘要:
综述了语义文本相似度计算的最新研究进展, 主要包括基于字符串、基于统计、基于知识库和基于深度学习的方法. 针对每一类方法, 不仅介绍了其中典型的模型和方法, 而且深入探讨了各类方法的优缺点; 并对该领域的常用公开数据集和评估指标进行了整理, 最后讨论并总结了该领域未来可能的研究方向.
综述了语义文本相似度计算的最新研究进展, 主要包括基于字符串、基于统计、基于知识库和基于深度学习的方法. 针对每一类方法, 不仅介绍了其中典型的模型和方法, 而且深入探讨了各类方法的优缺点; 并对该领域的常用公开数据集和评估指标进行了整理, 最后讨论并总结了该领域未来可能的研究方向.
2020, (5): 113-130.
doi: 10.3969/j.issn.1000-5641.202091006
摘要:
关系抽取作为一种经典的自然语言处理任务, 广泛应用于知识图谱的构建与补全、知识库问答和文本摘要等领域, 旨在抽取目标实体对之间的语义关系. 为了能够高效地构建大规模监督语料, 基于远程监督的关系抽取方法被提出, 通过将文本与现有知识库进行对齐来实现自动标注. 然而由于过强的假设使得其面临诸多挑战, 从而吸引了研究者们的关注. 本文首先介绍远程监督关系抽取的概念和形式化描述, 其次从噪声、信息匮乏以及非均衡3个方面对比分析相关方法及其优缺点, 接着对评估数据集以及评测指标进行了解释和对比分析, 最后探讨了远程监督关系抽取面对的新的挑战以及未来发展趋势, 并在最后做出总结.
关系抽取作为一种经典的自然语言处理任务, 广泛应用于知识图谱的构建与补全、知识库问答和文本摘要等领域, 旨在抽取目标实体对之间的语义关系. 为了能够高效地构建大规模监督语料, 基于远程监督的关系抽取方法被提出, 通过将文本与现有知识库进行对齐来实现自动标注. 然而由于过强的假设使得其面临诸多挑战, 从而吸引了研究者们的关注. 本文首先介绍远程监督关系抽取的概念和形式化描述, 其次从噪声、信息匮乏以及非均衡3个方面对比分析相关方法及其优缺点, 接着对评估数据集以及评测指标进行了解释和对比分析, 最后探讨了远程监督关系抽取面对的新的挑战以及未来发展趋势, 并在最后做出总结.
2020, (5): 131-136.
doi: 10.3969/j.issn.1000-5641.202091008
摘要:
通过对数字政府发展的回顾, 研究数字政府的特征, 结合IT技术的发展, 说明政务中台的建设是数字政府构建的重要技术支撑. 结合上海市“一网通办”的建设历程, 介绍了政务中台中业务、数据、应用3个方面的建设情况, 并对今后的发展方向做了总结性的说明.
通过对数字政府发展的回顾, 研究数字政府的特征, 结合IT技术的发展, 说明政务中台的建设是数字政府构建的重要技术支撑. 结合上海市“一网通办”的建设历程, 介绍了政务中台中业务、数据、应用3个方面的建设情况, 并对今后的发展方向做了总结性的说明.
2020, (5): 137-145.
doi: 10.3969/j.issn.1000-5641.202091009
摘要:
给出了一种面向业务侧的数据资产建设新方法. 数据资产是数据中台概念中核心一环, 需要一种业务导向的资产映射来完成资产业务化过程. 标签类目体系方法论是一种将数据资产按照树状结构组织的方法, 根目录为对象, 枝干分支为类目, 叶/花末端为标签. 各种对象树之间存在能量连接, 并通过业务供给生长. 标签类目体系实例化可以采用整体规划、局部截取两种模式. 资产结果分为资产清单和资产实体两大部分, 它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果, 以实现数据资产价值.
给出了一种面向业务侧的数据资产建设新方法. 数据资产是数据中台概念中核心一环, 需要一种业务导向的资产映射来完成资产业务化过程. 标签类目体系方法论是一种将数据资产按照树状结构组织的方法, 根目录为对象, 枝干分支为类目, 叶/花末端为标签. 各种对象树之间存在能量连接, 并通过业务供给生长. 标签类目体系实例化可以采用整体规划、局部截取两种模式. 资产结果分为资产清单和资产实体两大部分, 它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果, 以实现数据资产价值.
2020, (5): 146-155.
doi: 10.3969/j.issn.1000-5641.202091013
摘要:
采用一种基于自编码器的异常检测算法, 实现大规模日线损率数据的异常检测. 变分自编码器是一种利用反向传播算法使得输出值近似等于输入值的神经网络, 使用自编码器将原始日线损率时间序列编码, 在重建过程中记录每个时间点的重建概率, 当重建概率大于指定阈值时就判定其为异常数据. 本文利用真实日线损数据进行实验, 试验结果表明, 基于自编码器的日线损率异常检测算法具有较好的检测效果.
采用一种基于自编码器的异常检测算法, 实现大规模日线损率数据的异常检测. 变分自编码器是一种利用反向传播算法使得输出值近似等于输入值的神经网络, 使用自编码器将原始日线损率时间序列编码, 在重建过程中记录每个时间点的重建概率, 当重建概率大于指定阈值时就判定其为异常数据. 本文利用真实日线损数据进行实验, 试验结果表明, 基于自编码器的日线损率异常检测算法具有较好的检测效果.
2020, (5): 156-166.
doi: 10.3969/j.issn.1000-5641.202091010
摘要:
目前大多数智能聊天系统的实现主要有两种方式. 检索式得到的回复准确且有意义, 但回复内容和回复类型却受限于所选择的语料库. 生成式可以获得语料库中没有的回复, 更具灵活性, 但是容易产生一些错误或是无意义的回复内容. 为了解决上述问题, 本文提出一种新的模型GRS(Generative-Retrieval-Score), 此模型可以同时训练检索模型和生成模型, 并用一个打分模块对检索模型和生成模型的结果进行打分排序, 将得分最高的回复作为整个对话系统的输出, 进而巧妙地将两种方法的优点结合起来, 使最终得到的回复具体多样, 且生成的回复形式灵活多变. 在真实的京东智能客服对话数据集上的实验表明, 本文提出的模型比现有的检索式模型和生成式模型在多轮对话建模上有着更优异的表现.
目前大多数智能聊天系统的实现主要有两种方式. 检索式得到的回复准确且有意义, 但回复内容和回复类型却受限于所选择的语料库. 生成式可以获得语料库中没有的回复, 更具灵活性, 但是容易产生一些错误或是无意义的回复内容. 为了解决上述问题, 本文提出一种新的模型GRS(Generative-Retrieval-Score), 此模型可以同时训练检索模型和生成模型, 并用一个打分模块对检索模型和生成模型的结果进行打分排序, 将得分最高的回复作为整个对话系统的输出, 进而巧妙地将两种方法的优点结合起来, 使最终得到的回复具体多样, 且生成的回复形式灵活多变. 在真实的京东智能客服对话数据集上的实验表明, 本文提出的模型比现有的检索式模型和生成式模型在多轮对话建模上有着更优异的表现.
2020, (5): 167-178.
doi: 10.3969/j.issn.1000-5641.202091016
摘要:
在聚合支付领域, 为了减少聚合支付平台的运营成本、提高平台利润率, 要解决的一个关键问题是确保平台中达到较低的商户流失率. 本文所关注的是聚合支付平台的商户流失预测问题, 目标是帮助平台及时挽回可能流失的客户. 基于交易流水数据和商户基本信息, 本文提出了与商户流失密切相关的特征, 采用多种传统机器学习模型进行流失预测. 考虑到商户的交易流水数据具有时序性, 增加了基于LSTM的多种时间序列模型来建模. 在真实数据集上的实验结果表明手动提取的特征具有一定的预测能力, 结果具有可解释性; 采用时间序列模型能够较好地学习到数据的时序特征, 从而进一步提升预测结果.
在聚合支付领域, 为了减少聚合支付平台的运营成本、提高平台利润率, 要解决的一个关键问题是确保平台中达到较低的商户流失率. 本文所关注的是聚合支付平台的商户流失预测问题, 目标是帮助平台及时挽回可能流失的客户. 基于交易流水数据和商户基本信息, 本文提出了与商户流失密切相关的特征, 采用多种传统机器学习模型进行流失预测. 考虑到商户的交易流水数据具有时序性, 增加了基于LSTM的多种时间序列模型来建模. 在真实数据集上的实验结果表明手动提取的特征具有一定的预测能力, 结果具有可解释性; 采用时间序列模型能够较好地学习到数据的时序特征, 从而进一步提升预测结果.
2020, (5): 179-188.
doi: 10.3969/j.issn.1000-5641.202091003
摘要:
随着移动设备的广泛应用, 当今的位置跟踪系统不断产生大量的轨迹数据. 同时, 许多应用亟需具备从移动物体的轨迹数据中挖掘出一起旅行的物体(旅行同伴)的能力, 如智慧交通系统和智慧营销. 现有算法或是基于模式挖掘方法, 按照特定模式匹配旅行同伴; 或是基于表征学习方法, 学习相似轨迹的相似表征. 前一种方法受限于点对匹配的问题, 后一种方法往往忽略轨迹之间的时间相近性. 为了改善这些问题, 提出了一个基于自编码器的深度表征学习模型Mean-Attn(Mean-Attention), 用于发现旅行同伴. Mean-Attn分别使用低维稠密向量表征和位置编码技术, 将空间和时间信息同时注入轨迹的嵌入表征中; 此外, 还利用Sort-Tile-Recursive(STR)算法、均值运算和全局注意力机制, 鼓励轨迹向邻近的轨迹学习; 从编码器获得轨迹表征后, 利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对表征进行聚类, 从而找到旅行同伴. 实验结果表明, Mean-Attn在寻找旅行同伴方面的表现要优于传统的数据挖掘算法和最新的深度学习算法.
随着移动设备的广泛应用, 当今的位置跟踪系统不断产生大量的轨迹数据. 同时, 许多应用亟需具备从移动物体的轨迹数据中挖掘出一起旅行的物体(旅行同伴)的能力, 如智慧交通系统和智慧营销. 现有算法或是基于模式挖掘方法, 按照特定模式匹配旅行同伴; 或是基于表征学习方法, 学习相似轨迹的相似表征. 前一种方法受限于点对匹配的问题, 后一种方法往往忽略轨迹之间的时间相近性. 为了改善这些问题, 提出了一个基于自编码器的深度表征学习模型Mean-Attn(Mean-Attention), 用于发现旅行同伴. Mean-Attn分别使用低维稠密向量表征和位置编码技术, 将空间和时间信息同时注入轨迹的嵌入表征中; 此外, 还利用Sort-Tile-Recursive(STR)算法、均值运算和全局注意力机制, 鼓励轨迹向邻近的轨迹学习; 从编码器获得轨迹表征后, 利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对表征进行聚类, 从而找到旅行同伴. 实验结果表明, Mean-Attn在寻找旅行同伴方面的表现要优于传统的数据挖掘算法和最新的深度学习算法.