中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于序列特征的点击率预测模型

朱思涵 浦剑

朱思涵, 浦剑. 基于序列特征的点击率预测模型[J]. 华东师范大学学报(自然科学版), 2020, (4): 134-146. doi: 10.3969/j.issn.1000-5641.201921006
引用本文: 朱思涵, 浦剑. 基于序列特征的点击率预测模型[J]. 华东师范大学学报(自然科学版), 2020, (4): 134-146. doi: 10.3969/j.issn.1000-5641.201921006
ZHU Sihan, PU Jian. Model for click-through rate prediction based on sequence features[J]. Journal of East China Normal University (Natural Sciences), 2020, (4): 134-146. doi: 10.3969/j.issn.1000-5641.201921006
Citation: ZHU Sihan, PU Jian. Model for click-through rate prediction based on sequence features[J]. Journal of East China Normal University (Natural Sciences), 2020, (4): 134-146. doi: 10.3969/j.issn.1000-5641.201921006

基于序列特征的点击率预测模型

doi: 10.3969/j.issn.1000-5641.201921006
基金项目: 国家自然科学基金(61702186)
详细信息
    通讯作者:

    浦 剑, 男, 副研究员, 硕士生导师, 研究方向为机器学习、计算机视觉、医学图像分析等. E-mail: jianpu@sei.ecnu.edu.cn

  • 中图分类号: TP391

Model for click-through rate prediction based on sequence features

  • 摘要: 点击率预测模型是主流推荐系统中十分重要的部分. 根据点击率预测的打分来调整商品的展示策略, 对提高业务的转化率、改进用户体验等有着重要的意义. 传统的点击率预测模型是利用用户特征和商品特征, 对点击率进行预测. 然而, 用户行为序列的结构特征, 如周期性规律、趋势等也能一定程度地体现用户行为的倾向. 针对部分信息利用上的空缺, 使用时间序列分析单元, 将提取用户行为序列的特征作为用户特征的扩展, 结合因子分解机结构将其与用户、商品特征进行交叉, 能够有效提高特征质量, 优化点击率预测模型的性能. 实验表明, 结合用户行为序列特征进行交叉优化的方法能够对点击率预测模型的表现带来很大提升, 提高点击率预测的精度.
  • 图  1  本文点击率预测模型框架

    Fig.  1  Proposed framework for CTR prediction

    图  2  动作特征分数

    Fig.  2  Feature score

    图  3  序列特点对比

    Fig.  3  Comparison of sequence characteristics

    图  4  seq-Cross 模型网络结构

    Fig.  4  Network architecture for seq-Cross

    图  5  行为序列拟合

    Fig.  5  Behavior sequence fitting

    图  6  模型损失和性能收敛

    Fig.  6  Model behavior and convergence

    表  1  序列的ADF检验和平稳性

    Tab.  1  Sequence ADF testing and stationarity

    序列 差分前 差分后
    τ p 延迟阶数 平稳性 τ p 延迟阶数 平稳性
    点击量 –2.603 9 0.092 1 14 非平稳 –4.732 6 7.30E–05 13 平稳
    请求订单 –1.454 1 0.556 1 14 非平稳 –6.179 2 6.52E–08 13 平稳
    成功订单 –0.814 0.814 9 15 非平稳 –5.8629 3.38E–07 14 平稳
    下载: 导出CSV

    表  2  用户/商品静态特征

    Tab.  2  Static features of user/item

    用户静态特征 商品静态特征
    离散特征 连续特征 离散特征 连续特征
    性别、地区、职业等 年龄、驾龄、购买力(金额)等 品牌、车种、动力类型等 年款、平均里程、均价等
    下载: 导出CSV

    表  3  模型性能对比

    Tab.  3  Model comparison

    模型AUCRecall (calibrated)Log_loss
    GBDT+LR 0.821 7 0.891 0 (0.238 7) 0.103 1
    DeepFM 0.820 8 0.915 5 (0.289 8) 0.073 9
    AFM 0.856 3 0.929 7 (0.329 1) 0.062 5
    seq-Cross 0.904 3 0.957 6 (0.448 5) 0.051 8
    下载: 导出CSV
  • [1] 纪文迪, 王晓玲, 周傲英. 广告点击率估算技术综述 [J]. 华东师范大学学报(自然科学版), 2013(3): 2-14.
    [2] ZHAO Z D, SHANG M S. User-based collaborative-filtering recommendation algorithms on hadoop [C]// 2010 3rd International Conference on Knowledge Discovery and Data Mining. IEEE, 2010: 478-481.
    [3] PIRASTEH P, JUNG J J, HWANG D. Item-based collaborative filtering with attribute correlation: A case study on movie recommendation [C]// Asian Conference on Intelligent Information and Database Systems 2014: Intelligent Information and Database Systems. Cham: Springer, 2014: 245-252. DOI:  10.1007/978-3-319-05458-2_26.
    [4] RICHARDSON M, DOMINOWSKA E, RAGNO R J, et al. Predicting clicks: Estimating the click-through rate for new ads [C]// Proceedings of the 16th International Conference on World Wide Web. ACM, 2007: 521-530. DOI:  10.1145/1242572.1242643.
    [5] JOACHIMS T. Optimizing search engines using clickthrough data [C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2002: 133-142.
    [6] ZHANG W N, DU T M, WANG J. Deep learning over multi-field categorical data [C]//European Conference on Information Retrieval 2016: Advances in Information Retrieval. Cham: Springer, 2016: 45-57. DOI:  10.1007/978-3-319-30671-1_4.
    [7] RENDLE S. Factorization machines [C]//2010 IEEE International Conference on Data Mining. IEEE, 2010: 995-1000. DOI:  10.1109/ICDM.2010.127.
    [8] QUINLAN J R. Induction of decision trees [J]. Machine Learning, 1986, 1(1): 81-106. DOI:  10.1023/A:1022643204877.
    [9] SCHAPIRE R E. A brief introduction to boosting [C]// Proceedings of the 16th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers Inc, 1999: 1401-1406.
    [10] CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 785-794.
    [11] QU Y, CAI H, REN K, et al. Product-based neural networks for user response prediction [C]//2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016: 1149-1154.
    [12] CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems [C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016: 7-10.
    [13] GUO H, TANG R, YE Y, et al. DeepFM: A factorization-machine based neural network for CTR prediction [C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI, 2017: 1725-1731.
    [14] AGUIAR E, NAGRECHA S, CHAWLA N V. Predicting online video engagement using clickstreams [C]//2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE, 2015: 1-10.
    [15] 李思琴, 林磊, 孙承杰. 基于卷积神经网络的搜索广告点击率预测 [J]. 智能计算机与应用, 2015(5): 22-25. DOI:  10.3969/j.issn.2095-2163.2015.05.007.
    [16] HE X R, PAN J F, JIN O, et al. Practical lessons from predicting clicks on ads at Facebook [C]//ADKDD’14: Proceedings of the 8th International Workshop on Data Mining for Online Advertising. ACM, 2014: pp.1-9. DOI:  10.1145/2648584.2648589.
    [17] 叶健, 赵慧. 基于大规模弹幕数据监听和情感分类的舆情分析模型 [J]. 华东师范大学学报(自然科学版), 2019(3): 86-100.
    [18] BROCKWELL P J, DAVIS R A, CALDER M V. Introduction to Time Series and Forecasting [M]. New York: Springer, 2002: 73-96.
    [19] XIAO J, YE H, HE X N, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks [C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI, 2017: 3119-3125.
  • 加载中
图(6) / 表(3)
计量
  • 文章访问数:  232
  • HTML全文浏览量:  830
  • PDF下载量:  24
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-08-01
  • 网络出版日期:  2020-07-20
  • 刊出日期:  2020-07-25

目录

    /

    返回文章
    返回