如果只是简单粗暴地计算的话文字转WAV音频