如果按照最开始的想法去进行的话文字转WAV音频