# 文本分词 对文本进行分词处理。 ## 请求格式说明 ** 调试工具:** 在线调试

请求方式:POST (HTTPS)

请求地址:

https://open.welink.huaweicloud.com/api/aiservice/v1/nlp/segment

认证方式: access_token,请参考获取access_token

请求头部:

Content-Type: application/json
x-wlk-Authorization: access_token

请求参数:

{
    "text":"今天天气真好",
    "posSwitch":1,
    "lang":"zh",
    "criterion":"PKU"
}

请求参数说明:

参数 必选 参数类型 说明
text String 待分词文本,长度为1~512,文本编码为UTF-8。
posSwitch Integer 是否开启词性标注功能,1为开启,0为关闭,默认为关闭。
lang String 支持的文本语言类型,目前只支持中文,默认为zh。
criterion String 支持的分词规范,目前支持PKU(北大分词标准)、CTB(宾州树库标准),默认为PKU。

请求示例:

 curl -X POST \
  'https://open.welink.huaweicloud.com/api/aiservice/v1/nlp/segment' \
  -H 'Accept-Charset: UTF-8' \
  -H 'Content-Type: application/json' \
  -H 'x-wlk-Authorization: access_token' \
  -d '{"text":"今天天气真好","posSwitch":1,"lang":"zh","criterion":"PKU"}'

响应格式说明

返回结果

正常返回结果

{
    "code": "0",
    "data": {
        "words": [
            {
                "content": "今天",
                "pos": "t"
            },
            {
                "content": "天气",
                "pos": "n"
            },
            {
                "content": "真",
                "pos": "d"
            },
            {
                "content": "好",
                "pos": "a"
            }
        ]
    },
    "error": "",
    "message": "ok"
}

异常返回结果

  • 分词失败响应示例
{
    "code": "58002",
    "data": null,
    "error": "argument valid error:text.must not be blank;text.text for segment should between 1 and 512;",
    "message": "NLP service call exception"
}
  • Token验证失败响应示例
{
    "code": "58401",
    "data": null,
    "error": "Failed to verify the token.",
    "message": "Login authentication failed."
}

返回参数说明

参数 必选 参数类型 说明
code String 错误码
message String 调用成功时为"ok"。调用失败时的错误信息。
data Object 调用成功时表示调用结果,详见data数据结构。调用失败时为null。
error String 错误信息。
  • data 数据结构
参数 必选 参数类型 说明
words Array [word] 分词结果,请参见word数据结构。
  • word 数据结构
参数 必选 参数类型 说明
content String 词汇文本。
pos String 词汇对应的词性。详细说明请参见:
(PKU)pos词性说明
(CTB)pos词性说明
  • (PKU)pos词性说明
一类词性 二类词性 三类词性
n:名词 nr:人名 nr1:汉语姓氏
nr2:汉语名字
nrj:日语人名
nrf:音译人名
ns:地名 nsf:音译地名
nt:机构团体名 -
nz:其它专名 -
nl:名词性惯用语 -
ng:名词性语素 -
t:时间词 tg:时间词性语素 -
s:处所词 - -
f:方位词 - -
v:动词 vd:副动词 -
vn:名动词 -
vshi:动词“是” -
vyou:动词“有” -
vf:趋向动词 -
vx:形式动词 -
vi:不及物动词(内动词) -
vl:动词性惯用语 -
vg:动词性语素 -
a:形容词 ad:副形词 -
an:名形词 -
ag:形容词性语素 -
al:形容词性惯用语 -
b:区别词 bl:区别词性惯用语 -
z:状态词 - -
r:代词 rr:人称代词 -
rz:指示代词 rzt:时间指示代词
rzs:处所指示代词
rzv:谓词性指示代词
ry:疑问代词 ryt:时间疑问代词
rys:处所疑问代词
ryv:谓词性疑问代词
rg:代词性语素 -
m:数词 mq:数量词 -
mg:甲、乙、丙、丁、戊、己、庚、辛、壬、癸 -
q:量词 qv:动量词 -
qt:时量词 -
d:副词 - -
p:介词 pba:介词“把” -
pbei:介词“被” -
c:连词 cc:并列连词 -
u:助词 uzhe:着 -
ule:了、喽 -
uguo:过 -
ude1:的、底 -
ude2:地 -
ude3:得 -
usuo:所 -
udeng:等、等等云云 -
uyy:一样、一般似的、般 -
udh:的话 -
uls:来讲、来说而言、说来 -
uzhi:之 -
ulian:连 (“连小学生都会”) -
e:叹词 - -
y:语气词(delete yg) - -
o:拟声词 - -
h:前 - -
k:后 - -
x:字符串 xe:Email字符串 -
xs:微博会话分隔符 -
xm:表情符号 -
xu:网址URL -
w:标点符号 wkz:左括号,全角: ( 〔 [ { 《 【 〖 〈 半角:( [ { < -
wky:右括号,全 角:) 〕 ] }》 】 〗〉半角: ) ] { > -
wyz:左引号,全角: “ ‘ 『 -
wyy:右引号,全角:” ’ 』 -
wj:句号,全角:。 -
ww:问号,全角:? 半角:? -
wt:叹号,全角:! 半角:! -
wd:逗号,全角:, 半角:, -
wf:分号,全角:; 半角: ; -
wn:顿号,全角:、 -
wm:冒号,全角:: 半角: : -
ws:省略号,全角:…… … -
wp:破折号,全角:—— -- ——- 半角:--- ---- -
wb:百分号千分号,全角:% ‰ 半角:% -
wh:单位符号,全角:¥ $ > ° ℃ 半角:$ -
  • (CTB)pos词性说明
词性 名称 示例
AD 副词 不 也 就
AS 动态助词 了 著 过
BA 把字结构 将 把
CC 并列连接词 和 与
CD 限定数量词 一 两 三
CS 从属连接词 虽然 如果 若
DEC 补语或名词化 的 之
DEG 关联或所有格 的 之
DER 补语短语"得"
DEV 方式"地"
DT 限定词 这 各 全
ETC 等等 等 等等
FW 外来词 A E B
IJ 感叹词 唉呀 哈拉
JJ 名词修饰词 大 新 小
LB 长"被"结构 被 为 受
LC 方位词 中 上 时
M 量词 个 年 美元
MSP 其他助词 所 而 来
NN 名词 经济 企业 人
NR 专有名词 中国 浙江
NT 时间名词 目前 去年
OD 数词 第一 第二 首
ON 拟声词 O
P 介词 在 对 以
PN 代词 他 我 自己
PU 标点符号 , 。
SB 短"被"结构 被 遭
SP 句末助词 了 的 吗
VA 谓词性形容词 大 多 好
VC 系动词 是 为 非
VE 主要动词"有" 有 没有 无
VV 动词 说 要 会

错误码说明

错误码 说明
0 成功。
58401 无权限。
58402 非法参数异常。
58500 服务异常。
58002 NLP服务异常。

结果。 ""

    无结果。 ""