在极度乐观的估计下文字转WAV音频