推导出这个结论是相当自然的文字转WAV音频