还有一种便是按人头计算的文字转WAV音频