中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

函数拟合实现语音演唱

王咿卜 李建文

王咿卜, 李建文. 函数拟合实现语音演唱[J]. 华东师范大学学报(自然科学版), 2021, (1): 152-164. doi: 10.3969/j.issn.1000-5641.202022009
引用本文: 王咿卜, 李建文. 函数拟合实现语音演唱[J]. 华东师范大学学报(自然科学版), 2021, (1): 152-164. doi: 10.3969/j.issn.1000-5641.202022009
WANG Yibu, LI Jianwen. Voice singing by function fitting[J]. Journal of East China Normal University (Natural Sciences), 2021, (1): 152-164. doi: 10.3969/j.issn.1000-5641.202022009
Citation: WANG Yibu, LI Jianwen. Voice singing by function fitting[J]. Journal of East China Normal University (Natural Sciences), 2021, (1): 152-164. doi: 10.3969/j.issn.1000-5641.202022009

函数拟合实现语音演唱

doi: 10.3969/j.issn.1000-5641.202022009
基金项目: 国家自然科学基金(60672001)
详细信息
    通讯作者:

    李建文, 男, 教授, 硕士生导师, 研究方向为皮肤听声、嵌入式开发、计算机网络通信与多媒体编程技术. E-mail: lijw@sust.edu.cn

  • 中图分类号: TN912.33

Voice singing by function fitting

  • 摘要: 语调是说话的腔调, 由不同的声调抑扬顿挫的配制和变化形成, 是人类传递情感的特征之一. 通过调节语调参数来改变一段话语中某个字音的长短及高低, 从而使可控的语调实现语音演唱的效果, 弥补了语音合成在歌曲演唱方面研究的缺失. 采用倒谱法来提取基音频率, 线性预测编码(Linear Predictive Coding, LPC)方法对共振峰进行估算, 最终通过高次多项式对语音声调的基频进行拟合, 将得到的拟合函数进行实时调整, 形成语调以达到语音演唱的目的. 从基音频率及共振峰两个基本参数出发, 结合发音的数理本质, 用直观的数学方法来进行语音演唱的合成, 使得原始语音与合成语音的总体识别率达到了87.6%. 合成结果表明, 采用调整语音合成参数的方法进行语调的变化, 能够使语音演唱的表现更加可控.
  • 图  1  发音器官示意图

    Fig.  1  Schematic diagram of speech organs

    图  2  发音的数字模型

    Fig.  2  Numerical model of pronunciation

    图  3  一声“a”的语谱图

    Fig.  3  The spectrogram of “a”

    图  4  语音信号波形

    Fig.  4  Voice signal waveform

    图  5  语调基频曲线

    Fig.  5  Tone pitch curve

    图  6  语音信号数学模型

    Fig.  6  Mathematical model of a speech signal

    图  7  语音包络线

    Fig.  7  Voice envelope

    图  8  基频曲线拟合步骤

    Fig.  8  Fitting steps for a fundamental frequency curve

    图  9  4个音阶基频曲线拟合结果

    Fig.  9  Fitting results for fundamental curves of four scales

    图  10  原始语音与合成语音语谱图

    Fig.  10  Spectrum of original and synthetic speech

    表  1  声音要素与物理变量关系

    Tab.  1  The relationship between sound elements and physical variables

    听觉变量物理变量函数变量
    音调声波频率声波频率
    响度声音强度声波振幅
    音色声波复合频谱
    下载: 导出CSV

    表  2  拟合函数不同阶数对比

    Tab.  2  Comparison of different orders of fitting functions

    (阶数)函数公式$f(x) = \sum\limits_{i = 1}^n {{a_i}{x^i}} $确定系数
    (n=1)a1= –4.32 a0=–1.314 0.188 4
    (n=2)a2=5.656 a1=–37.15 a0=9.932 0.349 5
    (n=3)a3=5.758 a2=–38.22 a1=32.17 a0=–7.585 0.926 5
    (n=4)a4=–0.4885 a3=10.94 a2=–53.45 a1=41.06 a0=–8.55 0.927 2
    (n=5)a5=–1.457 a4=17.36 a3=–59.71 a2=46.23 a1=–2.872 a0=–4.48 0.954 9
    下载: 导出CSV

    表  3  测评结果

    Tab.  3  Evaluation results

    原始语音与合成语音相似度百分比/%
    较好62.5
    一般25.0
    较差12.5
    下载: 导出CSV
  • [1] 杨润. 语音语调中蕴含的情感表达点 [J]. 北方音乐, 2018, 38(15): 61.
    [2] 赵一勤, 曹嘉欣, 刘靖禹. 基于语音语调的抑郁症检测软件 [J]. 电脑编程技巧与维护, 2019(5): 37-39.
    [3] 徐晨煜. 基于统计机器学习的端到端的语音合成研究 [J]. 电子世界, 2020(6): 77-79.
    [4] 王永鑫, 贾珈, 张雨辰, 等. 基于HMM语音合成的语调控制 [J]. 清华大学学报(自然科学版), 2013, 53(6): 781-786.
    [5] 吴秀坤. 发声器官的构造与功能 [J]. 中国科技信息, 2006(6): 243.
    [6] 陶曙光. 歌唱发声器官的基本构造与发声原理 [J]. 音乐天地, 2015(9): 48-50.
    [7] 宋知用. MATLAB在语音信号分与合成中的应用 [M]. 北京: 北京航空航天大学出版社, 2013: 16-20.
    [8] 周珺. 在汉语语音识别中语速、音量和音调调整的研究 [D]. 西安: 西安电子科技大学, 2002.
    [9] 余叶. 音色在声乐演唱中的运用 [J]. 黄河之声, 2020(2): 70-71.
    [10] 彭佳, 许桂清, 吴先球. 具身认知视野下的初中物理概念教学设计优化—以声音的特征“响度”课堂教学为例 [J]. 物理通报, 2020(1): 45-48.
    [11] SCHARINE A A, MCBEATH M K. Natural regularity of correlated acoustic frequency and intensity in music and speech: Auditory scene analysis mechanisms account for integrality of pitch and loudness [J]. Routledge, 2018, 1(3/4): 205-228.
    [12] 杨懿. 噪音音乐艺术在古筝演奏中的展现 [J]. 儿童音乐, 2013(8): 62-64.
    [13] 王建群, 高下, 刘晓宙, 等. 艺术嗓音中不同唱法的元音共振峰研究 [J]. 临床耳鼻咽喉头颈外科杂志, 2008(15): 679-682.
    [14] 王莲子, 李钟晓, 陈倩倩, 等. 基于K-SVD算法和组合字典的语音信号清浊音判决研究 [J]. 青岛大学学报(工程技术版), 2020, 35(2): 17-23.
    [15] BRAUN S. Cepstrum based methods [J]. Mechanical Systems and Signal Processing, 2019, 128: 674-676.
    [16] 焦蓓, 曾以成, 侯丽霞. 结合改进自相关与加权小波分量的基音检测法 [J]. 计算机工程与应用, 2013, 49(14): 222-226,246.
    [17] 戴维一. 论基于电子音乐音响合成的创作思维 [D]. 上海: 上海音乐学院, 2010.
    [18] 刘建新, 曹荣, 赵鹤鸣. 一种LPC改进算法在提取耳语音共振峰中的应用 [J]. 西华大学学报(自然科学版), 2008(3): 77-80,110.
    [19] ILYAS M, OTHMANI A, NAIT-ALI A. Auditory perception based system for age classification and estimation using dynamic frequency sound [J]. Multimedia Tools and Applications, 2020, 79: 21603-21626.
    [20] VAN MAASTRICHT L, ZEE T, KRAHMER E, et al. The interplay of prosodic cues in the L2: How intonation, rhythm, and speech rate in speech by Spanish learners of Dutch contribute to L1 Dutch perceptions of accentedness and comprehensibility [J/OL]. Speech Communication, (2020-04-28)[2020-06-01]. https://doi.org/10.1016/j.specom.2020.04.003.
    [21] 郭慧. 汉语普通话陈述句与疑问句语调的声学特征分析 [J]. 文教资料, 2019, 35: 36-39.
    [22] HA-KYUNG K, 赵风云, 刘晓明, 等. 正常青年人不同语料测试基频的研究 [J]. 听力学及言语疾病杂志, 2015, 23(6): 575-577.
    [23] ARUL E. Deep nonlinear regression least squares polynomial fit to detect malicious attack on IoT devices [J/OL]. Journal of Ambient Intelligence and Humanized Computing, (2020-05-14)[2020-06-01]. https://doi.org/10.1007/s12652-020-02075-y.
    [24] 宋刚, 姚艳红. 用于汉语单音节声调识别的基频轨迹拟合方法 [J]. 计算机工程与应用, 2008, 29: 239-240, 244.
  • 加载中
图(10) / 表(3)
计量
  • 文章访问数:  124
  • HTML全文浏览量:  55
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-06-10
  • 刊出日期:  2021-01-27

目录

    /

    返回文章
    返回