是按照日文发音直接用英文字母标示出来的文字转WAV音频