Elasticsearch Analyzer 内置分词器( 二 ) _生活百科

Lower Case Tokenizer : 转小写的

Token filters

Stop Token Filter : 过滤停顿词默认使用规则 english

5.2 Configuration

stopwords : 指定分词的规则默认 english , 或者分词的数组
stopwords_path : 指定分词停顿词文件

5.3 实验如下就是对 Stop Analyzer 的实现 , 先转小写后进行停顿词的过滤

PUT /stop_example{"settings": {"analysis": {"filter": {"english_stop": {"type":"stop","stopwords":"_english_"}},"analyzer": {"rebuilt_stop": {"tokenizer": "lowercase","filter": ["english_stop"]}}}}}

设置 stopwords 参数指定过滤的停顿词列表

PUT my_index{"settings": {"analysis": {"analyzer": {"my_stop_analyzer": {"type": "stop","stopwords": ["the", "over"]}}}}}POST my_index/_analyze{"analyzer": "my_stop_analyzer","text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."}[ quick, brown, foxes, jumped, lazy, dog, s, bone ]

6. Whitespace Analyzer空格分词器, 顾名思义遇到空格就进行分词, 不会转小写

POST _analyze{"analyzer": "whitespace","text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."}[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

6.1 DefinitionTokenizer

Whitespace Tokenizer

6.2 Configuration无配置
6.3 实验whitespace analyzer 的实现就是如下, 可以根据实际情况进行添加 filter

PUT /whitespace_example{"settings": {"analysis": {"analyzer": {"rebuilt_whitespace": {"tokenizer": "whitespace","filter": []}}}}}

7. Keyword Analyzer很特殊它不会进行分词, 怎么输入就怎么输出

POST _analyze{"analyzer": "keyword","text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."}//注意 这里并没有进行分词 而是原样输出[ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

7.1 DefinitionTokennizer

Keyword Tokenizer

7.2 Configuration无配置
7.3 实验rebuit 如下就是 Keyword Analyzer 实现
PUT /keyword_example{"settings": {"analysis": {"analyzer": {"rebuilt_keyword": {"tokenizer": "keyword","filter": []}}}}}8. Patter Analyzer正则表达式进行拆分 ,注意正则匹配的是标记, 就是要被分词的标记 默认是按照 \w+ 正则分词

POST _analyze{"analyzer": "pattern","text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."}// 默认是 按照 \w+ 正则[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

8.1 DefinitionTokennizer

Pattern Tokenizer

Token Filters

Lower Case Token Filter
Stop Token Filter (默认未开启)

8.2 ConfigurationpatternA Java regular expression, defaults to \W+.flagsJava regular expression.lowercase转小写默认开启 true.stopwords停顿词过滤默认none未开启 , Defaults to _none_.stopwords_path停顿词文件路径8.3 实验Pattern Analyzer 的实现就是如下

PUT /pattern_example{"settings": {"analysis": {"tokenizer": {"split_on_non_word": {"type":"pattern","pattern":"\\W+"}},"analyzer": {"rebuilt_pattern": {"tokenizer": "split_on_non_word","filter": ["lowercase"]}}}}}

9. Language Analyzer提供了如下这么多语言分词器 , 其中 english 也在其中
arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.

GET _analyze{"analyzer": "english","text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."}[ 2, quick, brown, foxes, jumped, over, lazy, dog, bone ]

10. Customer Analyzer没啥好说的就是当提供的内置分词器不满足你的需求的时候 ,你可以结合如下3部分

Character Filters : 主要对原文本做处理, 例如去除 html 标签
Tokenizer : 按照规则把文本切分为单词, 也就是分词
Token Filters : 将切分后的单词进行加工处理,小写,删除stopwords 停顿词,增加同义词 , 扩展一些

PUT my_index{"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {"type": "custom","char_filter": ["emoticons"],"tokenizer": "punctuation","filter": ["lowercase","english_stop"]}},"tokenizer": {"punctuation": {"type": "pattern","pattern": "[ .,!?]"}},"char_filter": {"emoticons": {"type": "mapping","mappings": [":) => _happy_",":( => _sad_"]}},"filter": {"english_stop": {"type": "stop","stopwords": "_english_"}}}}}POST my_index/_analyze{"analyzer": "my_custom_analyzer","text":"I'm a :) person, and you?"}[ i'm, _happy_, person, you ]
上一页
1
2
3
下一页
		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  带梓的女孩名字及寓意 
                
                   
                
              
            

                  
              
                  学生会活动策划方案范文 经典学生会活动策划范文 
                
                   
                
              
            

                  
              
                  12星座女谁是小野猫谁是小奶猫 
                
                   
                
              
            

                  
              
                  月光石手链有什么寓意 月光石有什么寓意 
                
                   
                
              
            

                  
              
                  粉色的粘土小玫瑰diy 
                
                   
                
              
            

                  
              
                  倚的组词 倚的组词组 
                
                   
                
              
            

                  
              
                  2023武汉中考志愿填报规则详解 2021年武汉中考志愿填报时间 
                
                   
                
              
            

                  
              
                  关于深圳市万科教育发展基金会简述 深圳市万科教育发展基金会 
                
                   
                
              
            

                  
              
                  没有足够的可用内存来运行此程序 没有足够的可用内存来运行程序 
                
                   
                
              
            

                  
              
                  缓刑是什么意思还要坐牢吗 缓刑是什么意思 
                
                   
                
              
            

                  
              
                  有一个“撩妹高手”的儿子，是种什么样的体验？ 
                
                   
                
              
            

                  
              
                  南阳多少人「南阳多少人口2020总人数」 
                
                   
                
              
            

                  
              
                  什么是事故车,如何鉴定 车子撞到什么程度算事故车 
                
                   
                
              
            

                  
              
                  秋季喝什么汤最好 秋季喝什么汤最养生 
                
                   
                
              
            

                  
              
                  绝地求生刺激战场军团名字怎么改？军团名字修改攻略[多图] 
                
                   
                
              
            

                  
              
                  梦见大鱼吃小鱼 
                
                   
                
              
            

                  
              
                  文房四宝指什么 文房四宝指什么数字 
                
                   
                
              
            

                  
              
                  OPPO Reno6简单评测 oppo reno6有nfc吗 
                
                   
                
              
            

                  
              
                  怎么判断二手车的真实行驶里程? 要看哪些细节 
                
                   
                
              
            

                  
              
                  双子座成功人士知多少？ 
                
                   
                
              
            

          

ElasticSearch这些坑记得避开 

有用的内置Node.js APIs 

京东云开发者｜ElasticSearch降本增效常见的方法 

记录在linux上单机elasticsearch8和kibana8 

AgileBoot - 如何集成内置数据库H2和内置Redis 

Elasticsearch rest-high-level-client 基本操作 

SpringBoot内置工具类，告别瞎写工具类了 

Hyperf使用ElasticSearch记录 

Mysql通过Canal同步Elasticsearch 

4 Java注解：一个真实的Elasticsearch案例