更多是说话的节奏和动作的弧度来展现文字转WAV音频