不同的理论导致处理问题的方式是完全不同的文字转WAV音频