词库管理

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。分词效果的好坏对信息检索、实验结果有比较大的影响影响。目前 Nasu Elasticsearch Serverless 集成了流行的开源IK分词器及拼音插件，方便大家使用。

GITHUB

基础分词测试

PUT /my-index
{
  "mappings": {
    "_doc": {
      "properties": {
        "content": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        }
      }
    }
  }
}

POST /my-index/_doc
{
  "content": "美国留给伊拉克的是个烂摊子吗"
}

POST /my-index/_doc
{
  "content": "公安部：各地校车将享最高路权"
}

POST /my-index/_doc
{
  "content": "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"
}

POST /my-index/_doc
{
  "content": "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
}

POST /my-index/_search
{
    "query" : { "match" : { "content" : "中国" }},
    "highlight" : {
        "pre_tags" : ["<tag1>", "<tag2>"],
        "post_tags" : ["</tag1>", "</tag2>"],
        "fields" : {
            "content" : {}
        }
    }
}

词库管理

利用analyze分词调试功能

POST _analyze
{
    "text": "良渚文化村",
    "tokenizer": "ik_smart"
}

如无法识别的词语默认按单字切分

启用共享词典

启用平台内置的【城市信息】词库，涵盖426万国内主要城市地区信息

启用后稍等词库更新（一分钟内），再次执行检查分词效果

自定义上传词库

准备一个简单的自定义词库，如包含如下两个词条

test.dic

莱万多夫司机
马斯切拉诺

将文件拖动到启用词库列表，完成自定义词库上传

检查分词效果

POST _analyze
{
    "text": "莱万多夫司机",
    "tokenizer": "ik_smart"
}

基础分词测试​

词库管理​

利用analyze分词调试功能​

启用共享词典​

自定义上传词库​

基础分词测试

词库管理

利用analyze分词调试功能

启用共享词典

自定义上传词库