中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2019年 第5期

专辑导语
“‘智能+’与数据驱动的科学研究”专辑导语
2019, (5).
摘要:
数据驱动的计算教育学
知识追踪综述
刘恒宇, 张天成, 武培文, 于戈
2019, (5): 1-15. doi: 10.3969/j.issn.1000-5641.2019.05.001
摘要:
在教育领域中,科学地、有针对性地对学生的知识状态进行有效追踪具有十分重要的意义.根据学生的历史学习轨迹,可以对学生与习题的交互过程进行建模.在此基础上,能够自动地对学生各个阶段的知识状态进行追踪,进而预测学生表现,实现个性化导学和自适应学习.首先,对知识追踪及其应用背景进行介绍,总结知识追踪所涉及的教育学与数据挖掘理论;其次,总结基于概率图、矩阵分解、深度学习的知识追踪研究现状,并根据方法的不同特点进行更为细致的分类;最后对目前的知识追踪技术进行分析比较,并对未来的研究方向进行展望.
共指消解技术综述
陈远哲, 匡俊, 刘婷婷, 高明, 周傲英
2019, (5): 16-35. doi: 10.3969/j.issn.1000-5641.2019.05.002
摘要:
共指消解旨在识别指向同一实体的不同表述,在文本摘要、机器翻译、自动问答和知识图谱等领域有着广泛的应用.然而,作为自然语言处理中的一个经典问题,它是一个NP-Hard的问题.本文首先对共指消解的基本概念进行介绍,对易混淆概念进行解析,并讨论了共指消解的研究意义及难点.本文进一步归纳梳理了共指消解的发展历程,将共指消解从技术层面划分为若干阶段,并介绍了各个阶段的代表性模型,探讨了各类模型的优缺点,其中着重介绍了基于规则、基于机器学习、基于全局最优化、基于知识库和基于深度学习的模型.接着对共指消解的评测会议进行介绍,对共指消解的语料库和常用评测指标进行解释和对比分析.最后,指出了当前共指消解模型尚未解决的问题,探讨了共指消解的发展趋势.
面向自动问答的机器阅读理解综述
杨康, 黄定江, 高明
2019, (5): 36-52. doi: 10.3969/j.issn.1000-5641.2019.05.003
摘要:
人工智能正在深彻地变革各个行业.AI与教育的结合加速推动教育的结构性变革,正在将传统教育转变为智适应教育.基于深度学习的自动问答系统不仅可帮助学生实时解答疑惑、获取知识,还可以快速获取学生行为数据,加速教育的个性化和智能化.机器阅读理解是自动问答系统的核心模块,是理解学生问题,理解文档内容,快速获取知识的重要技术.在过去的几年里,随着深度学习复兴以及大规模机器阅读数据集的公开,各种各样的基于神经网络的机器阅读模型不断涌现.这篇综述主要讲述3方面的内容:介绍机器阅读理解的定义与发展历程;分析神经机器阅读模型之间的优点及不足;总结机器阅读领域的公开数据集以及评价方法.
面向初等数学的知识点关系提取研究
杨东明, 杨大为, 顾航, 洪道诚, 高明, 王晔
2019, (5): 53-65. doi: 10.3969/j.issn.1000-5641.2019.05.004
摘要:
随着互联网技术的发展,在线教育已经改变了学生的学习方式.但由于缺乏完整的知识体系,在线教育存在着智能化程度低和“信息迷航”的问题.因此,构建知识体系成为在线教育平台的核心技术.知识点间的关系提取是知识体系构建的主要任务之一,目前比较高效的关系提取算法主要是监督式的.但是这类方法受限于文本质量低、语料稀缺、标签数据难获取、特征工程效率低、难以提取有向关系等挑战.为此,基于百科语料和远程监督思想,研究了知识点间的关系提取算法.提出了基于关系表示的注意力机制,该方法能够提取知识点间的有向关系信息.结合了GCN和LSTM的优势,提出了GCLSTM,该模型更好地提取了句子中的多点信息.基于Transformer架构和关系表示的注意力机制,提出了适用于有向关系提取的BTRE模型,降低了模型的复杂度.设计并实现了知识点关系提取系统.通过设计3组对比实验,验证了模型的性能和效率.
基于模糊聚类和支持向量回归的成绩预测
申航杰, 琚生根, 孙界平
2019, (5): 66-73, 84. doi: 10.3969/j.issn.1000-5641.2019.05.005
摘要:
现有的成绩预测模型往往过度使用不同类型的属性,导致过于复杂的分数预测方法,或是需要人工参与.为提高学生成绩预测的准确率和可解释性,提出了一种融合模糊聚类和支持向量回归的成绩预测方法.首先引入模糊逻辑来计算隶属度矩阵,根据学生的历史成绩进行聚类,随后对每个聚类簇利用支持向量回归理论对成绩轨迹进行拟合建模.此外,结合学生学习行为等相关属性,对最终的预测结果做调整.在多个基准数据集上进行了实验测试,验证了该方法的有效性.
新兴应用中的计算机智能
基于社区问答数据迁移学习的FAQ问答模型研究
邵明锐, 马登豪, 陈跃国, 覃雄派, 杜小勇
2019, (5): 74-84. doi: 10.3969/j.issn.1000-5641.2019.05.006
摘要:
基于FAQ(Frequent Asked Questions)问答技术构建智能客服系统,是当前业界普遍采用的技术方案.基于FAQ构建的问答系统,其返回的结果具有稳定、可靠、质量高的优点;但因受限于人工标注的知识库规模,识别能力有限,容易遇到瓶颈.为了解决FAQ数据集规模有限的问题,给出了数据层面和模型层面的解决方法:在数据层面,利用百度知道爬取相关数据并挖掘语义等价问题,保证了数据的相关性和一致性;在模型层面,提出了一种面向迁移学习的深度神经网络transAT,该模型融合了Transformer强大的特征抽取能力和注意力机制,适用于句子对之间的语义相似度计算.实验表明,该方法可以显著提升模型在FAQ问答任务中的效果,在一定程度上解决了FAQ数据集规模有限的问题.
基于法计算学理论的人工智能辅助决策算法研究
陈亮, 郭佳雯, 武建功, 王占全, 史令
2019, (5): 85-99. doi: 10.3969/j.issn.1000-5641.2019.05.007
摘要:
针对法学理论和法律实践中缺乏智能决策的问题,综合考虑该领域内的业务数据特征,采用多种数据分析模型进行智能决策算法的研究.法计算学理论以法律关系的数据化智能驱动为核心,在作为法律研究与应用本体的法律关系与计算机科学领域内的数据特征属性之间建立联系,提出了“涵摄分类”概念,并对决策树、朴素贝叶斯等算法进行法律场景下的改进,建立了法律关系坐标系,实现法律关系分析的空间几何转化,最后提出了智能化的辅助决策平台.实验结果表明,该辅助决策与真实律师的办案策略与结果高度吻合,具有辅助律师决策的可行性和有效性.
基于用户偏好的最优路径搜索
江群, 戴戈南, 张森, 葛又铭, 刘玉葆
2019, (5): 100-112. doi: 10.3969/j.issn.1000-5641.2019.05.008
摘要:
本文研究基于用户偏好的最优路径搜索,在预算约束下寻找一条满足用户偏好即关键字和权重偏好的最优路径.此研究问题是NP-hard.为了高效地解决这类查询问题,本文提出新的索引建立方法,在查询阶段利用索引结构过滤出候选节点集.另外,提出基于A*的路径搜索算法来做路径查询,并利用几个有效的剪枝策略加快算法的执行速度.在两个真实的签到数据集上的实验结果证明了本文提出方法的有效性.当预算时间设置为4~7 h时,与已有最好的PACER算法相比,本文的路径搜索算法消耗的查询时间更短.
基于自注意力机制的冗长商品名称精简方法
傅裕, 李优, 林煜明, 周娅
2019, (5): 113-122, 167. doi: 10.3969/j.issn.1000-5641.2019.05.009
摘要:
大部分电子商务网站为了吸引用户的关注,通常将商品的很多属性也纳入到商品名称中,使得商品名称中包括了冗余的信息,并产生不一致性.为解决这一的问题,提出了一个基于自注意力机制的商品名称精简模型,并针对自注意力机制网络无法直接捕捉商品名称序列特征的问题,利用门控循环单元的时序特性对自注意力机制进行了时序增强,以较小的计算代价换取了商品命名精简任务整体性能的提升.在公开商品短标题数据集LESD4EC的基础上,构造了商品名称精简数据集LESD4EC_L和LESD4EC_S,并进行了模型验证.一系列的实验结果表明本,所提出的自注意力机制冗长商品名称精简方法相对于其他商品名称精简方法在效果上有较大的提升.
基于孤立森林算法的电能量异常数据检测
黄福兴, 周广山, 丁宏, 张罗平, 钱淑韵, 袁培森
2019, (5): 123-132. doi: 10.3969/j.issn.1000-5641.2019.05.010
摘要:
随着电力系统信息化建设的深入,用户对于电能量数据的质量要求逐渐提高,因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法,实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集,生成随机二叉树和孤立森林构建模型,通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据,而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测,实验结果表明,该算法检测效率较高,并具有较高的检测正确率.
基于自适应神经网络的电网稳定性预测
赵波, 田秀霞, 李灿
2019, (5): 133-142. doi: 10.3969/j.issn.1000-5641.2019.05.011
摘要:
电网安全稳定是电力企业乃至整个社会改革、发展、稳定的基础.随着电网结构复杂度的增加,更需要电网安全和稳定地运行,这是保证国民经济快速良好发展的重要要求.基于机器学习方法,提出了一种优化神经网络的电网稳定性预测模型,并和经典机器学习方法进行了横向对比.通过UCI2018年电网稳定性仿真数据集的实验分析,结果表明,所提出的方法可以达到更高的预测准确率,同时也为电力大数据的研究提供了新思路.
新时期数据管理技术
面向日志结构化数据存储的高效数据加载
丁国浩, 徐辰, 钱卫宁
2019, (5): 143-158. doi: 10.3969/j.issn.1000-5641.2019.05.012
摘要:
近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.
基于LevelDB的二维数据二级索引实现
刘子豪, 胡卉芪, 徐瑞, 周烜
2019, (5): 159-167. doi: 10.3969/j.issn.1000-5641.2019.05.013
摘要:
随着科学研究中产生的空间数据尤其是二维数据量级的增长和NoSQL型数据库技术的发展,越来越多的空间数据被存储到NoSQL数据库中.LevelDB是一款开源的Key-Value型NoSQL数据库,由于它基于LSM架构并拥有较好的写入性能而被广泛应用.但是Key-Value结构的局限性使其无法有效地索引空间数据,对于这个问题本文提出了一种基于LevelDB和R-tree的二级索引,使其可以支持二维数据的索引和近邻查询.实验结果表明该结构有较好的可用性.
基于Paxos的分布式一致性算法的实现与优化
祝朝凡, 郭进伟, 蔡鹏
2019, (5): 168-177. doi: 10.3969/j.issn.1000-5641.2019.05.014
摘要:
互联网的不断发展,企业的信息化程度不断加强,不计其数的数据需要得到及时处理.但是网络环境不稳定,容易发生数据丢失、节点宕机,从而造成严重后果.因此,构建可以容错的分布式存储系统变得越来越受欢迎.为了保证系统的高可用性和一致性,需要引入分布式一致性算法.为了提高系统在不稳定网络下的性能,传统基于Paxos的分布式系统允许日志中存在空洞.然而,当节点进入恢复状态时,这些系统通常需要大量网络交互来补全日志空洞,这极大地增加了节点恢复的时间,从而影响了系统的可用性.针对节点恢复过程中补全日志空洞代价过大的问题,本文重新设计了日志项结构,优化了数据恢复流程,通过实验模拟,验证改进的基于Paxos的一致性算法的有效性.
基于GPU的关系型流处理系统实现与优化
黄皓, 李志方, 王嘉伦, 翁楚良
2019, (5): 178-189. doi: 10.3969/j.issn.1000-5641.2019.05.015
摘要:
现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源,实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间,并实现多种调优策略以适应不同场景.实验表明,单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming.
Woodpecker+:基于数据特征的自定义负载性能评测
张涛, 张小磊, 李宇明, 张春熙, 张蓉
2019, (5): 190-202. doi: 10.3969/j.issn.1000-5641.2019.05.016
摘要:
数据库的性能评测随着复杂多样的应用出现变得更加重要.在很多情况下,研究、开发人员的性能评估工作受限于负载的缺乏.虽然OLTP-Bench通用数据库性能测试框架在一定程度上提高了性能测试的效率,但由于标准Benchmark负载固定且针对用户多样的应用场景的代表性差,故无法精准地满足不同应用的系统性能;此外,大部分测试框架使用高级编程语言支持为应用编写测试负载,不仅增加测试负担还会引入大量重复性工作,导致测试效率低下.本文设计并实现了一个用户自定义性能测试负载的工具:Woodpecker+.该工具的主要贡献为:易于使用和可拓展、提供了可高效构造测试案例、做测试安排的测试定义语言(TDL)、可灵活控制事务执行模式及数据访问分布、实现了轻量级的细粒度统计信息收集与分析、支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库.通过一组详细的运行在主流DBMS上的自定义负载实验来验证Woodpecker+的特性.