# 语音评测语音评测，可以根据朗读音频数据和试题文本，给出朗读者口语的评测分数。 ## 请求格式说明 ** 调试工具：** 在线调试

请求方式：POST (HTTPS)

请求地址：

https://open.welink.huaweicloud.com/api/aiservice/v1/sis/audio-assessment

认证方式： access_token，请参考获取access_token

请求头部：

Content-Type: application/json    
x-wlk-Authorization: access_token

请求参数

{ 
  "config":{
    "audio_format": "wav",
    "language": "en_gb",
    "mode": "word"
  },
  "audioData": "/+MgxAAUeHpMAUkQAANhuRAC...",
  "refText": "the"
}

请求参数说明

参数	必选	参数类型	说明
config	是	Object	配置信息。
audioData	是	String	语音数据，base64编码，要求base64 编码后大小不超过1M。
refText	是	String	被评估语音数据对应的试题文本，长度不可超过256字节。

config 数据结构

参数名	必选	参数类型	说明
audio_format	是	String	支持语音的格式，请参考表 audio_format取值范围。
language	是	String	评测语言，请参考表 language取值范围。
mode	是	String	评测模式，请参考表 mode取值范围。

audio_format 取值范围

audio_format	说明
wav	带wav封装头的格式，从封装头中自动确定格式，目前仅支持16k采样率、单通道、pcm编码格式。

language 取值范围

language	说明
en_gb	英语-英式口音。

mode 取值范围

mode	说明
word	单词模式。
sentence	句子模式。

请求示例

 curl -X POST \
  'https://open.welink.huaweicloud.com/api/aiservice/v1/sis/audio-assessment' \
  -H 'Accept-Charset: UTF-8' \
  -H 'Content-Type: application/json' \
  -H 'x-wlk-Authorization: access_token' \
  -d '{ "config":{
            "audio_format": "wav",
            "language": "en_gb",
            "mode": "word"
        },
        "audioData": "/+MgxAAUeHpMAUkQAANhuRAC...",
        "refText": "the"
        }

响应格式说明

返回结果 正常返回结果

{
    "code": "0",
    "data": {
        "pronunciation": {
    "score": 78.75914588018699,
    "gop": 78.75914588018699
  },
  "fluency": {
    "score": 93.54487425415604,
    "cohesion": 100.0,
    "rhythm": 87.08974850831208
  },
  "score": 68.9237874340553,
  "completeness": 77.77777777777777,
  "duration": 4.245,
  "words": [
    {
      "pronunciation": {
        "score": 78.75914588018699,
        "gop": 78.75914588018699
      },
      "out_of_vocabulary": false,
      "text": "the",
      "text_original": "the",
      "text_normalised": [
        "the"
      ],
      "score": 81.94181621551513,
      "fluency": {
        "score": 86.79680229187012,
        "rhythm": 86.79680229187012
      },
      "start_time": 0.39,
      "end_time": 0.48,
      "phonemes": [
        {
          "fluency": {
            "score": 78.87865902900697,
            "rhythm": 78.87865902900697
          },
          "end_time": 0.41000000000000003,
          "arpa": "dh",
          "ipa": "",
          "pronunciation": {
            "score": 78.75914588018699,
            "gop": 78.75914588018699
          },
          "start_time": 0.39
        },
        {
          "fluency": {
            "score": 94.71494555473328,
            "rhythm": 94.71494555473328
          },
          "end_time": 0.48,
          "arpa": "iy",
          "ipa": "",
          "pronunciation": {
            "score": 78.75914588018699,
            "gop": 78.75914588018699
          },
          "start_time": 0.41000000000000003
        }
      ]
    }
 ]
    },
    "error": "",
    "message": "ok"
}

异常返回结果

失败响应示例

{
    "code": "58401",
    "data": null,
    "error": "Failed to verify the token.",
    "message": "Login authentication failed."
}

返回参数说明 语音评测响应参数说明请参见表。

响应参数说明

参数	必选	参数类型	说明
code	是	String	错误码
message	是	String	调用成功时为"ok"。调用失败时的错误信息。
data	是	Object	调用成功时表示调用结果，详见data数据结构。调用失败时为null。
error	是	String	错误信息。

data 数据结构

参数名	必选	参数类型	说明
completeness	是	Float	完整性评分，范围：[0,100]。单词发音清楚的比例。
duration	是	Float	音频时长，单位秒。
pronunciation	是	Object	发音质量评分, 参考pronunciation数据结构。
fluency	是	Object	流利度评分，参考fluency 数据结构。
words	是	Array[Object]	试题文本中各个单词评测结果列表，参考words 数据结构。

pronunciation 数据结构

参数名	必选	参数类型	说明
score	是	Float	发音质量综合打分，范围： [0,100]。
gop	是	Float	发音好坏打分，范围：[0,100]。当前发音质量仅有一个指标，故gop 等于score。

fluency 数据结构

参数名	必选	参数类型	说明
score	是	Float	流利度综合打分，范围：[0,100]。
rhythm	是	Float	韵律得分，范围：[0,100]。韵律指音素在单词和句子中的发音长度是否得当。
cohesion	是	Float	连贯性得分，范围：[0,100]。

words数据结构

参数名	必选	参数类型	说明
text	是	String	去除了所有标点符号后的单词文本，前端调用接口后推荐使用本字段在UI 中展示结果。
text_original	是	String	调用接口时传入的原始单词文本。
text_normalised	是	Array[String]	原始文本规范化后切分成的单词。如：175规范为 ["one", ""hundred", "and", "seventy", "five"]。
out_of_vocabulary	是	Boolean	是否命中模型发音字典。如果未命中，则表明会以根据发音规律推测的发音为标准评测。
score	是	Float	综合打分，范围：[0,100]。
start_time	是	Float	单词发音起始时间，单位秒。
end_time	是	Float	单词发音结束时间，单位秒。
pronunciation	是	Object	单词发音质量评分，参考pronunciation 数据结构。
fluency	是	Object	单词流利度评分，参考单词和音素 fluency 数据结构。
phonemes	是	Array[Object]	单词中各音素评测结果列表，参考phoneme 数据结构。

单词和音素 fluency 数据结构

参数名	必选	参数类型	说明
score	是	Float	流利度综合打分，范围：[0,100]。
rhythm	是	Float	韵律得分，范围：[0,100]。韵律指音素在单词和句子中的发音长度是否得当。

phoneme 数据结构

参数名	必选	参数类型	说明
arpa	是	String	音标（ARPAbet音标系统）。
ipa	是	String	音标（国际音标系统）。
start_time	是	String	音素发音起始时间，单位秒。
end_time	是	String	音素发音结束时间，单位秒。
fluency	是	Object	音素流利度打分，参考单词和音素 fluency 数据结构。
pronunciation	是	Object	音素发音质量评分，参考pronunciation 数据结构。

错误码说明

错误码	说明
0	成功。
58401	无权限。
58402	非法输入参数。
58500	服务异常。
58003	SIS服务异常。

响应格式说明

结果。 ""

无结果。 ""