信息与机电工程学院

研究方向

龙艳花，现任上海师范大学信息与通信工程系教授，云知声-上师大自然人机交互联合实验室负责人，上海市院士专家工作站专家，上海市”东方学者“特聘教授。国家自然科学基金、上海市首届青年英才扬帆计划获得者。现为IEEE、ISCA会员，有15年以上从事智能语音及语言处理、人机交互和深度学习研究和产业化工作经验。

研究兴趣

语音信息处理：鲁棒性语音识别，声纹识别，目标语音分离，个性化语音增强，语音合成，多模态语音处理及通用语音大模型等
声音事件检测：半监督/无监督家居场景的声音事件检测，目标定位，少样本声音事件检测

招生信息：

信息与通信工程、通信工程、计算机科学与技术，人工智能学硕、专硕

学习及工作经历：

2013/06-至今，上海师范大学，教授
2011/10-2013/04，英国剑桥大学，工程系，博士后
2009/09-2010/02，微软亚洲研究院，语音组，Intern
2008/07-2009/02，新加坡南洋理工大学及I2R研究院，HLT部门，交流学生
2006/09–2011/06，中国科学技术大学，科大讯飞语音实验室，博士，导师：戴礼荣

国际科研合作：

与新加坡国立大学（NUS），南洋理工大学（NTU）等教授合作，联合培养在读研究生

2019-2021年：研究生周心远到新加坡国立大学Prof. Haizhou Li 实验室联合培养，主要从事基于深度学习的中英文混合语音识别声学建模的研究
2023-2024年：研究生王雪菲到香港中文大学深圳大数据研究院实验室联合培养，主要从事目标语音提取的算法研究
2024年：研究生李黎到新加坡南洋理工大学Prof. Chng Eng Siong实验室联合培养，主要从事基于语音大模型的低资源ASR声学建模算法研究

科研获奖及学术评测：

1. 2023年11月，特殊声学时间检测算法研究, “上海产学研合作优秀项目奖”三等奖；
2. 2023年8月，自然人机交互联合实验室与云知声合作，首次提出了Consistency Measure Factor（CMF）算法，
在VoxSRC 2023 国际说话人识别竞赛中，团队夺得Track1第一名、Track2第二名；
3. 2021年，少样本生物事件检测国际评测“DCASE2021 Task5-Few-shot Bioacoustic Event Detection（IEEE AASP
Challenge）”，实验室研究生“唐甜甜，梁芸浩”同学提交的SHNU系统性能排名国际第二，详见官方结果；
4. 2021年，家居场景下的声音事件检测和分离国际评测“DCASE2021 Task4-Sound Event Detection and Separationin
Domestic Environments”, 实验室研究生“梁芸浩，唐甜甜”同学提交SHNU系统，teams-rangking 10/22, system-ranking 20/68, 详见官网结果；
5. 2020年，Blizzard Challenge国际语音合成评测，云知声-上师大自然人机交互联合实验室
提交的SHNU系统，首次参加评测获中文普通话，上海话多项关键指标排名第一。如中文普
通话合成自然度，段落合成所有指标（Overrall impression\pleasantness\speech
pauses\stress\intonation\emotion\listeningeffort），普通话相似度、上海话可懂度
等指标位列第一，详情见具体报道；
6. 2020年，声学场景分类领域的国际评测“DCASE2020 Task 1A（IEEE AASP Challenge）”，基于研究生刘悦同学
的研究成果，实验室提交的SHNU系统获得排名26/93, 见官方结果：http://dcase.community/challenge2020/task-
acoustic-scene-classification-results-a#Liu2020；
7. 2020年，第二十二届中国国际工业博览会，云知声-上师大联合实验室合作成果“智能语音电子病例”
系统获高校展区“优秀展品奖”；
8. 2018年，“上海产学研合作优秀项目奖”二等奖；
9. 2016年，国际“中英文混合语音识别竞赛(OC16 Chinese-English MixASR Challenge)”，提交的“SHNU”中英文
混合语音识别系统取得国际第2名；
10. 2018年7-8月，第5届国际多通道语音分离和识别评测(The 5th CHiME Speech Separation and Recognition Challenge,
CHiME-5),提交的“SHNU系统”成绩排在国际第9名；
11. 2019年1-2月，国际“防攻击声纹识别评测(Automatic Speaker Verification Spoofing and CountermeasuresChallenge,
ASVspoof2019)”, 提交的“SHNU系统”成绩排在国际第13/156名；
12. 2019年9月，联合实验室学生参加 “多通道远场文本相关声纹识别-AISHELL Speaker Verification Challenge2019”，
获得第4名/50；
13. 2008 NIST Speaker Recognition Evaluation (SRE)，在核心测试任务中，作为关键技术人员及组长带领的团队获得 EER、
minDCF两项国际第一名，DCF第三名，综合成绩国际第一，该成果被国家自然科学基金委，中国科学院网站等
100多家媒体报；
14. 2009 NIST Language Recognition Evaluation，团队在通用语种测试中各项指标综合排名国际第二；同时，在更具挑战
性的 8组方言对测试中，有 6组方言对测试性能均远远超过了其他参赛单位，综合排名国际第一；
15. 2010 NIST Speaker Recognition Evaluation，作为关键技术人员及组长带领的团队获得 EER, minDCF， DCF指标综合成绩
国际第二名。

主持的科研项目：

1.国家自然科学基金面上项目，低资源条件下的重口音鲁棒性声学建模关键技术研究，2021-2024.
2. 国家自然科学基金青年项目，中英文混合语音识别中声学建模关键技术研究， 2017-2020.
3. 上海市青年科技英才扬帆计划，基于深度学习的声纹识别方法研究, 2014-2017.
4. 企业横向课题，特殊声学事件检测算法研究，2019-2023.
5. 联盟计划项目，防攻击的声纹识别关键技术研发，已结题
6. 联合实验室横向课题，自然人机交互关键技术研发，已结题.
7. 联盟计划项目，多语种混合语音识别开发, 已结题.

Publications（*指研究生一作，导师通信作者）： Google scholar

===============================================================================

2024年度：Google scholar

2023年度：

[1] Yifan Zhou, Yanhua Long*, Haoran Wei. Acoustic-Sensing-Based Attribute-Driven Imbalanced Compensation

for Anomalous Sound Detection without Machine Identity, Sensors, 2023, 23(21), 8984; https://doi.org/10.3390/s23218984.

[2] Yibo Duan, Yanhua Long*, Jiaen Liang. Dual-model Self-regularization and Fusion for Domain Adaptation of

Robust Speaker Verification, Speech Communication, 2023, vol. 155.

[3] Li Li, Yanhua Long*, Dongxing Xu, Yijie Li. Boosting Character-based Mandarin ASR via Chinese Pinyin Representation,

International Journal of Speech Technology, 2023, 26:895-902.

[4] Yibo Duan, Yanhua Long*, Yijie Li. CI-MIX: Cut Instance Mix For Robust Speaker Verification, International Journal

of Speech Technology, 2023, 26:851-857.

[5] Li Li, Dongxing Xu, Haoran Wei, Yanhua Long*. Phonetic-assisted Multi-Target Units Modeling for Improving

Conformer-Transducer ASR system, Proc. INTERSPEECH 2023, pp. 2263—2267.

[6] Jing Li, Yanhua Long*, Yijie Li, Dongxing Xu. Advanced RawNet2 with Attention-based Channel Masking for

Synthetic Speech Detection, Proc. INTERSPEECH 2023, pp. 2788--2792.

[7] Xuefei Wang, Yanhua Long*, Yijie Li, Haoran Wei. Multi-pass Training and Cross-information Fusion for Low-resource

End-to-end Accented Speech Recognition, Proc. INTERSPEECH 2023, pp.2923-2927.

[8] Xiaoxiao Wu, Dongxing Xu, Haoran Wei, Yanhua Long*. FEW-Shot Continual Learning with Weight Alignment

and Positive Enhancement for Bioacoustic Event Detection. Proc. ICASSP 2023, Rhodes Island, Greece, 2023, pp. 1-5.

[9] Jiangyu Han, Yanhua Long*. Heterogeneous separation consistency training for adaptation of unsupervised

speech separation. EURASIP Journal on Audio,Speech, and Music Processing, 2023, 6 (2023).

2022年度：

[1] Xiaofeng Ge, Jiangyu Han, Yanhua Long* and Haixin Guan. "PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement", Interspeech, 2022.

[2] Yunhao Liang, Yanhua Long*, Yijie Li and Jiaen Liang. "Selective Pseudo-labeling and Class-wise Discriminative

Fusion for Sound Event Detection", Interspeech, 2022.

[3] Jiangyu Han, Yanhua Long*, Lukas Burget, Jan Cernocky. “DPCCN: Densely-Connected Pyramid Complex Convolutional

Network for Robust Speech Separation And Extraction”, ICASSP, 2022.

[4] Yunhao Liang, Yanhua Long*, Yijie Li, Jiaen Liang, Yuping Wang. “Joint framework with deep feature distillation and

adaptive focal loss for weakly supervised audio tagging and acoustic event detection”, Digital Signal Processing, 123, 2022.

[5] Jiangyu Han, Yan Shi, Yanhua Long*, Jiaen Liang. “Exploring single channel speech separation for short-time text-

dependent speaker verification”, International Journal of Speech Technology, 2022.

[6] Linqiang Wei, Yanhua Long*, Haoran Wei, Yijie Li. “New Acoustic Features for Synthetic and Replay Spoofing Attack

Detection”, Symmetry 14 (2), 274, 2022.

[7] Tiantian Tang, Yanhua Long*, Yijie Li, Jiaen Liang. “Acoustic domain mismatch compensation in bird audio detection”,

International Journal of Speech Technology, 2022.

2021年度：

[1] Yue Liu, Yanhua Long*, Yijie Li, Jiaen Liang. "Feature Fusion Using Segment-level Embeddings for Acoustic

Scene Classification". NCMMSC 2021.

[2] Tiantian Tang, Xinyuan Zhou, Yanhua Long*, Yijie Li, Jiaen Liang. "CNN-based Discriminative Training for Domain

Compensation in Acoustic Event Detection with Frame-wise Classifier", APSIPA 2021.

[3] Yanhua Long*, Shuang Wei, Jie Lian, Yijie Li. "Pronunciation Augmentation for Mandarin-English Code-switching

Speech Recognition", EURASIP Journal on Audio, Speech, and Music Processing, 34(2021).

[4] Jiangyu Han, Wei Rao, Yanhua Long*, Jiaen Liang, "Attention-based Scaling Adaptation for Target Speech Extraction",

ASRU 2021, pp. 658-662.

[5] Jiangyu Han, Wei Rao, Yannan Wang, Yanhua Long*, "Improving Channel Decorrelation for Multi-Channel Target

Speech Extraction", Interspeech 2021, pp. 1847-1851.

[6] Jiangyu Han, Xinyuan Zhou, Yanhua Long* and Yijie Li, "Multi-channel target speech extraction with channel decorrelation

and target speaker adaptation", ICASSP 2021, pp. 6079-6083.

2020年度：

[1] Hongwei Mao, Yan Shi, Yue Liu, Linqiang Wei, Yijie Li and Yanhua Long*. "Short-time speaker verification with

different speaking style utterances", Plos One, 15(11): e0241809. https://doi.org/10.1371/journal. pone.0241809, 2020.

[2] Xinyuan Zhou, Grandee Lee, Emre Yilmaz, Yanhua Long*, Jiaen Liang and Haizhou Li. "Self-and-Mixed Attention Decoder

with Deep Acoustic Structure for Transformer-based LVCSR", Interspeech, 2020, pp.5016-5020.

[3] Xinyuan Zhou, Emre Yilmaz, Yanhua Long*, Jiaen Liang and Haizhou Li. "Multi-Encoder-Decoder Transformer

for code-switching speech recognition", Interspeech, 2020, pp.1042-1046.

[4] Yue Liu, Xinyuan Zhou, Yanhua Long*. "Acoustic scene classification with various deep classifiers", DCASE 2020

Challenge, 2020.

[5] Laipeng He, Qiang Shi, Lang Wu, Jianqing Sun, Renke He, Yanhua Long*, Jiaen Liang. "The SHNU system for the

Blizzard Challenge 2020", Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp.19-23.

[6] Yanhua Long, Qiaozheng Zhang, Shuang Wei, Hong Ye and Jichen Yang. "Acoustic data augmentation for Mandarin-

English code-switching speech recognition", Applied Acoustics, 161(107175), 2020.

[7] Renke He, Yanhua Long*, Yijie Li and Jiaen Liang. “Mask-based blind source separation and MVDR beamforming

in ASR", International Journal of Speech Technology, 23:133-140, 2020.

2019年度以前，见Google scholar

学术成果（以下信息源于科研管理系统）

教学工作

教职工课程信息
开课学年	开课学期	课程名称
2023-2024	1	科技文献检索与写作
2022-2023	2	数字语音处理
2021-2022	1	线性代数
2020-2021	2	数字语音处理
2020-2021	1	线性代数
2019-2020	2	数字语音处理
2018-2019	2	数字语音处理
2018-2019	1	线性代数
2021-2022	2	线性代数
2019-2020	1	数字语音处理
2023-2024	2	数字语音处理
2017-2018	2	数字语音处理
2016-2017	1	线性代数
2024-2025	1	科技文献检索与写作
2024-2025	2	数字语音处理
2025-2026	1	科技文献检索与写作

荣誉奖励

2015-2016 年度上海师范大学三八红旗手

2017年，获上海师范大学“第八届优秀青年学术骨干”荣誉称号

社会兼职

国家自然科学基金通讯评审专家

国家教育部学位中心论文评审专家

上海市科学技术委员会入库专家

国际高水平学术期刊及语音领域顶级国际会议审稿专家，

包括 IEEE TASLP, Speech Communication, CSL, ICASSP, INTERSPEECH等

基本信息