这两个方案的构架都相当宏大文字转WAV音频