必备条件:
统招一本
优先条件:
互联网大厂
岗位职责:
职责描述:
1、 负责语音生成大模型的研发,包括语音合成、音色克隆、情感语音、可控语音、对话合成等;
2、 负责语音端到端大模型的探索,包括模态对齐、预训练、指令微调、强化学习、模型评测等;
3、 负责语音合成数据的优化,包括数据处理、数据评估、数据合成等。
任职要求:
1、 计算机科学或相关领域硕士及以上学历;
2、 熟悉常见的语音合成模型(CosyVoice、IndexTTS、F5-TTS等)、语音大模型(Qwen2.5-Omni、Kimi-Audio等)、生成算法(Diffusion、Flow-Matching等)、业界领先的LLM(GPT、LLaMA、Qwen等)的基本原理和训练方法;
3、 具备较强的编码能力,熟悉linux和Python,熟悉PyTorch/Tensorflow等至少一种主流深度学习框架;
4、 具备优秀的学习能力、良好的问题分析能力和责任心;
5、 在国际顶级会议/期刊上有相关论文发表者优先。