# 语音评测 语音评测,可以根据朗读音频数据和试题文本,给出朗读者口语的评测分数。 ## 请求格式说明 ** 调试工具:** 在线调试

请求方式:POST (HTTPS)

请求地址:

https://open.welink.huaweicloud.com/api/aiservice/v1/sis/audio-assessment

认证方式: access_token,请参考获取access_token

请求头部:

Content-Type: application/json    
x-wlk-Authorization: access_token

请求参数

{ 
  "config":{
    "audio_format": "wav",
    "language": "en_gb",
    "mode": "word"
  },
  "audioData": "/+MgxAAUeHpMAUkQAANhuRAC...",
  "refText": "the"
}

请求参数说明

参数 必选 参数类型 说明
config Object 配置信息。
audioData String 语音数据,base64编码,要求base64 编码后大小不超过1M。
refText String 被评估语音数据对应的试题文本,长度不可超过256字节。

config 数据结构

参数名 必选 参数类型 说明
audio_format String 支持语音的格式,请参考表 audio_format取值范围。
language String 评测语言,请参考表 language取值范围。
mode String 评测模式,请参考表 mode取值范围。

audio_format 取值范围

audio_format 说明
wav 带wav封装头的格式,从封装头中自动确定格式,目前仅支持16k采样率、单通道、pcm编码格式。

language 取值范围

language 说明
en_gb 英语-英式口音。

mode 取值范围

mode 说明
word 单词模式。
sentence 句子模式。

请求示例

 curl -X POST \
  'https://open.welink.huaweicloud.com/api/aiservice/v1/sis/audio-assessment' \
  -H 'Accept-Charset: UTF-8' \
  -H 'Content-Type: application/json' \
  -H 'x-wlk-Authorization: access_token' \
  -d '{ "config":{
            "audio_format": "wav",
            "language": "en_gb",
            "mode": "word"
        },
        "audioData": "/+MgxAAUeHpMAUkQAANhuRAC...",
        "refText": "the"
        }

响应格式说明

返回结果 正常返回结果

{
    "code": "0",
    "data": {
        "pronunciation": {
    "score": 78.75914588018699,
    "gop": 78.75914588018699
  },
  "fluency": {
    "score": 93.54487425415604,
    "cohesion": 100.0,
    "rhythm": 87.08974850831208
  },
  "score": 68.9237874340553,
  "completeness": 77.77777777777777,
  "duration": 4.245,
  "words": [
    {
      "pronunciation": {
        "score": 78.75914588018699,
        "gop": 78.75914588018699
      },
      "out_of_vocabulary": false,
      "text": "the",
      "text_original": "the",
      "text_normalised": [
        "the"
      ],
      "score": 81.94181621551513,
      "fluency": {
        "score": 86.79680229187012,
        "rhythm": 86.79680229187012
      },
      "start_time": 0.39,
      "end_time": 0.48,
      "phonemes": [
        {
          "fluency": {
            "score": 78.87865902900697,
            "rhythm": 78.87865902900697
          },
          "end_time": 0.41000000000000003,
          "arpa": "dh",
          "ipa": "",
          "pronunciation": {
            "score": 78.75914588018699,
            "gop": 78.75914588018699
          },
          "start_time": 0.39
        },
        {
          "fluency": {
            "score": 94.71494555473328,
            "rhythm": 94.71494555473328
          },
          "end_time": 0.48,
          "arpa": "iy",
          "ipa": "",
          "pronunciation": {
            "score": 78.75914588018699,
            "gop": 78.75914588018699
          },
          "start_time": 0.41000000000000003
        }
      ]
    }
 ]
    },
    "error": "",
    "message": "ok"
}

异常返回结果

失败响应示例

{
    "code": "58401",
    "data": null,
    "error": "Failed to verify the token.",
    "message": "Login authentication failed."
}

返回参数说明 语音评测响应参数说明请参见表。

  • 响应参数说明
参数 必选 参数类型 说明
code String 错误码
message String 调用成功时为"ok"。调用失败时的错误信息。
data Object 调用成功时表示调用结果,详见data数据结构。调用失败时为null。
error String 错误信息。

data 数据结构

参数名 必选 参数类型 说明
completeness Float 完整性评分,范围:[0,100]。单词发音清楚的比例。
duration Float 音频时长,单位秒。
pronunciation Object 发音质量评分, 参考pronunciation数据结构。
fluency Object 流利度评分,参考fluency 数据结构。
words Array[Object] 试题文本中各个单词评测结果列表,参考words 数据结构。

pronunciation 数据结构

参数名 必选 参数类型 说明
score Float 发音质量综合打分,范围: [0,100]。
gop Float 发音好坏打分,范围:[0,100]。当前发音质量仅有一个指标,故gop 等于score。

fluency 数据结构

参数名 必选 参数类型 说明
score Float 流利度综合打分,范围:[0,100]。
rhythm Float 韵律得分,范围:[0,100]。 韵律指音素在单词和句子中的发音长度是否得当。
cohesion Float 连贯性得分,范围:[0,100]。

words数据结构

参数名 必选 参数类型 说明
text String 去除了所有标点符号后的单词文本,前端调用接口后推荐使用本字段在UI 中展示结果。
text_original String 调用接口时传入的原始单词文本。
text_normalised Array[String] 原始文本规范化后切分成的单词。 如:175规范为 ["one", ""hundred", "and", "seventy", "five"]。
out_of_vocabulary Boolean 是否命中模型发音字典。 如果未命中,则表明会以根据发音规律推测的发音为标准评测。
score Float 综合打分,范围:[0,100]。
start_time Float 单词发音起始时间,单位秒。
end_time Float 单词发音结束时间,单位秒。
pronunciation Object 单词发音质量评分,参考pronunciation 数据结构。
fluency Object 单词流利度评分,参考单词和音素 fluency 数据结构。
phonemes Array[Object] 单词中各音素评测结果列表,参考phoneme 数据结构。

单词和音素 fluency 数据结构

参数名 必选 参数类型 说明
score Float 流利度综合打分,范围:[0,100]。
rhythm Float 韵律得分,范围:[0,100]。韵律指 音素在单词和句子中的发音长度是否得当。

phoneme 数据结构

参数名 必选 参数类型 说明
arpa String 音标(ARPAbet音标系统)。
ipa String 音标(国际音标系统)。
start_time String 音素发音起始时间,单位秒。
end_time String 音素发音结束时间,单位秒。
fluency Object 音素流利度打分,参考单词和音素 fluency 数据结构。
pronunciation Object 音素发音质量评分,参考pronunciation 数据结构。

错误码说明

错误码 说明
0 成功。
58401 无权限。
58402 非法输入参数。
58500 服务异常。
58003 SIS服务异常。

结果。 ""

    无结果。 ""