还画出了新的结构图来论证文字转WAV音频