-
1. ELK技术栈说明
Elastic有一条完整的产品线:Elasticsearch、Logstash、Kibana等,即ELK技术栈(开源实时日志分析平台)。
- Logstash 的作用就是一个数据收集器,将各种格式各种渠道的数据通过它收集解析之后格式化输出到Elasticsearch ,最后再由Kibana 提供的比较友好的 Web 界面进行汇总、分析、搜索。
- ELK 内部实际就是个管道结构,数据从 Logstash 到 Elasticsearch 再到 Kibana 做可视化展示。这三个组件各自也可以单独使用,比如 Logstash 不仅可以将数据输出到Elasticsearch ,也可以到数据库、缓存等
- Elasticsearch的作用:展现高速、扩展性、最相关的搜索结果
- 分布式的搜索引擎:百度、Google、站内搜索
- 全文检索:提供模糊搜索等自动度很高的查询方式,并进行相关性排名,高亮等功能
- 数据分析引擎(分组聚合):电商网站—一周内手机销量Top10
- 对海量数据进行近乎实时处理:水平扩展,每秒钟可处理海量事件,同时能够自动管理索引和查询在集群中的分布方式,以实现极其流畅的操作
- 分布式:节点对外表现对等,每个节点都可以作为入门,加入节点自动负载均衡
- JSON:输入输出格式是JSON
- Restful风格,一切API都遵循Rest原则,容易上手
- 近实时搜索,数据更新在Elasticsearch中几乎是完全同步的,数据检索近乎实时
- 安装方便:没有其它依赖,下载后安装很方便,简单修改几个参数就可以搭建集群
- 支持超大数据:可以扩展到PB级别的结构化和非结构化数据
1.1 安装Elasticsearch
path.data: d:\class\es\data # #Path to log files: # path.logs: d:\class\es\log
- Elasticsearch如果启动失败,需要修改虚拟机内存的大小
- 找到jvm.options文件
- xms 是指设定程序启动时占用内存大小。一般来讲,大点,程序会启动的快一点,但是也可能会导致机器暂时间变慢。
- Xmx 是指设定程序运行期间最大可占用的内存大小。如果程序运行需要占用更多的内存,超出了这个设置值,就会抛出OutOfMemory异常。
- 绑定了两个端口:9300:集群节点间通讯接口,接收tcp协议;9200:客户端访问接口,接收Http协议,浏览器中访问:http://127.0.0.1:9200 有json数据表明启动成功
1.2 安装kibana
Kibana是一个基于Node.js的Elasticsearch索引库数据统计工具,可以利用Elasticsearch的聚合功能,生成各种图表,如柱形图,线状图,饼图等;提供了操作Elasticsearch索引数据的控制台,并且提供了一定的API提示,用于学习Elasticsearch语法
elasticsearch.url: "http://127.0.0.1:9200
1.3 安装ik分词器
Lucene的IK分词器早在2012年已经没有维护了,我们使用维护的升级版本Elasticsearch的集成插件了,与Elasticsearch一起维护升级,版本也保持一致
- 解压elasticsearch-analysis-ik-6.2.4.zip后,将解压后的文件夹拷贝到elasticsearch-6.2.4\plugins下,并重命名文件夹为ik
- 重新启动ElasticSearch,即可加载IK分词器
1.4安装Head插件
elasticsearch-head是一个界面化的集群操作和管理工具,可以对集群进行傻瓜式操作。你可以通过插件把它集成到es(首选方式),也可以安装成一个独立webapp。
es-head主要有三个方面的操作:
安装:直接下载压缩包,地址:https://files.cnblogs.com/files/sanduzxcvbnm/elasticsearch-head.7z并解压,在谷歌浏览器中点击“加载已解压的压缩程序”,找到elasticsearch-head文件夹,点击打开即可进行安装
2.kibana对索引库操作
2.1 基本概念
- 节点 (node):一个节点是一个Elasticsearch的实例。在服务器上启动Elasticsearch之后,就拥有了一个节点。如果在另一台服务器上启动Elasticsearch,这就是另一个节点。甚至可以通过启动多个Elasticsearch进程,在同一台服务器上拥有多个节点
- 集群(cluster):多个协同工作的Elasticsearch节点的集合被称为集群。在多节点的集群上,同样的数据可以在多台服务器上传播。这有助于性能的稳定性,每个分片至少有一个副本分片,在任何一个节点宕机后,Elasticsearch依然可以进行服务,返回所有数据。但必须确定节点之间能够足够快速地通信,并且不会产生脑裂效应(集群的2个部分不能彼此交流,都认为对方宕机了)。
- 分片 (shard):索引可能会存储大量数据,这些数据可能超过单个节点的硬件限制,Elasticsearch提供了将索引细分为多个碎片的功能。创建索引时,只需定义所需的分片数量即可。每个分片本身就是一个功能齐全且独立的“索引”,可以托管在群集中的任何节点上。它允许您水平分割/缩放内容量,跨碎片(可能在多个节点上)分布和并行化操作,从而提高性能/吞吐量
- 分片如何分布以及其文档如何聚合回到搜索请求中的机制完全由Elasticsearch管理,并且对您作为用户是透明的。在随时可能发生故障的网络/云环境中,强烈建议使用故障转移机制,以防碎片/节点因某种原因脱机或消失。为此,Elasticsearch允许您将索引分片的一个或多个副本制作为所谓的副本分片(简称副本)。
- 副本(replica):分片处理允许用户推送超过单机容量的数据至Elasticsearch集群。副本则解决了访问压力过大时单机无法处理所有请求的问题。
- 分片可以是主分片,也可以是副本分片,其中副本分片是主分片的完整副本。副本分片用于搜索,或者是在原有的主分片丢失后成为新的主分片。
- 可以在任何时候改变每个分片的副本分片的数量,因为副本分片总是可以被创建和移除的。
- 在创建索引之前,必须决定主分片的数量。过少的分片将限制可扩展性,但是过多的分片会影响性能。默认设置5份
- 文档 (document):Elasticsearch是面向文档的,这意味着索引和搜索数据的最小单位是文档。
- 它是自我包含的。一篇文档同时包含字段和它们的取值。
- 它可以是层次的。文档中还包含新的文档,字段还可以包含其他字段和取值。例如,“location”字段可以同时包含“city”和“street“两个字段。
- 它拥有灵活的结构。文档不依赖于预先定义的模式。并非所有的文档都需要拥有相同的字段,它们不受限于同一个模式。
- 类型 (type):类型是文档的逻辑容器,类似于表格是行的容器。在不同的类型中,最好放入不同结构的文档。
- 索引 (index):索引是映射类型的容器。一个Elasticsearch索引是独立的大量的文档集合。 每个索引存储在磁盘上的同组文件中,索引存储了所有映射类型的字段,还有一些设置
- 映射(mapping):所有文档在写入索引前都将被分析,用户可以设置一些参数,决定如何将输入文本分割为词条,哪些词条应该被过滤掉,或哪些附加处理有必要被调用(比如移除HTML标签),存储分析链所需的所有信息。
Elasticsearch也是基于Lucene的全文检索库,本质也是存储数据,很多概念与MysqL类似的
索引库 (indices) |
indices是index的复数,代表许多的索引, |
类型(type) | 类型是模拟MysqL中的table概念,一个索引库下可以有不同类型的索引(目前 6.X以后的版本只能有一个类型),类似数据库中的表概念。数据库表中有表 结构,也就是表中每个字段的约束信息;索引库的类型中对应表结构的叫做 映 射(mapping) ,用来定义每个字段的约束。 |
文档 (document) |
存入索引库原始的数据。比如每一条商品信息,就是一个文档 |
字段(field) | 文档中的属性 |
映射配置 (mappings) |
字段的数据类型、属性、是否索引、是否存储等特性 |
2.1 索引库
Elasticsearch采用Rest风格API,因此其API就是一次http请求,你可以用任何工具发起http请求
{ "settings": { "属性名": "属性值" } }
settings:就是索引库设置,其中可以定义索引库的各种属性
2.2 类型及映射操作
字段的约束信息,叫做字段映射(mapping),包括但不限于:字段的数据类型;是否要存储;是否要索引;是否分词;分词器是什么
- 创建字段映射
- 查看映射关系
- 映射属性详解
字符串数组:["one", "two"] 整数数组:[1,2] 数组的数组:[1, [2, 3]],等价于[1,2,3] 对象数组:[ { "name": "Mary", "age": 12 }, { "name": "John", "age": 10 }]
-
- Object:对象,JSON文档本质上是分层的:文档包含内部对象,内部对象本身还包含内部对象。
{ "region": "US", "manager.age": 30, "manager.name ": "John Smith" } 索引方法如下: { "mappings": { "properties": { "region": { "type": "keyword" }, "manager": { "properties": { "age": { "type": "integer" }, "name": { "type": "text" } } } } }
-
- ip地址
- ip地址
PUT my_index { "mappings": { "_doc": { "properties": { "ip_addr": { "type": "ip" } } } } } PUT my_index/_doc/1 {"ip_addr": "192.168.1.1" } GET my_index/_search { "query": { "term": { "ip_addr": "192.168.0.0/16" } } }
-
- index:true:字段会被索引,则可以用来进行搜索过滤。默认值就是true,只有当某一个字段的index值设置为true时,检索ES才可以作为条件去检索。index的默认值就是true
- store:是否将数据进行额外存储。
- 在lucene时,我们知道如果一个字段的store设置为false,那么在文档列表中就不会有这个字段的值,用户的搜索结果中不会显示出来。
- 在Elasticsearch中,即便store设置为false,也可以搜索到结果。原因是Elasticsearch在创建文档索引时,会将文档中的原始数据备份,保存到一个叫做 _source 的属性中。而且我们可以通过过滤 _source 来选择哪些要显示,哪些不显示。
- 而如果设置store为true,就会在 _source 以外额外存储一份数据,多余,因此一般我们都会将store设置为false,事实上,store的默认值就是false。
- 在某些情况下,这对 store 某个领域可能是有意义的。例如,如果您的文档包含一个 title ,一个date 和一个非常大的 content 字段,则可能只想检索the title 和the date 而不必从一个大 _source字段中提取这些字段
- boost:网站权重:网站权重是指搜索引擎给网站(包括网页)赋予一定的权威值,对网站(含网页)权威的评估评价。一个网站权重越高,在搜索引擎所占的份量越大,在搜索引擎排名就越好。提高网站权重,不但利于网站(包括网页)在搜索引擎的排名更靠前,还能提高整站的流量,提高网站信任度,默认 boost 值为 1.0,提升仅适用于Term查询(不提升prefix,range和模糊查询)。
- 一次创建索引库和类型
2.3 kibana对文档操作
- 新增文档,显示为created 说明创建成功,请求为post
- 查询文档
- 删除文档,DELETE /索引库名/类型名/id值,显示为deleted
- 更新文档
- 智能判断,Elasticsearch非常智能,你不需要给索引库设置任何mapping映射,它也可以根据你输入的数据来判断类型,动态添加数据映射
title是String类型数据,ES无法智能判断,它就会存入两个字段subtitle: text类型和subtitle.keyword:keyword类型
未知的string类型数据就不会被映射为text和keyword并存,而是统一以keyword来处理
2.4 查询操作
- 基本查询
GET /索引库名/_search { "query":{ "查询类型":{ "查询条件":"查询条件值" } } }
- 查询所有match_all
- 匹配查询
- 词条匹配:term 查询被用于精确值 匹配,这些精确值可能是数字、时间、布尔或者那些未分词的字符串,keyword类型的字符串 ,效果类似于:select * from tableName where colName='value'
- 布尔组合:bool 把各种其它查询通过 must (与)、 must_not (非)、 should (或)的方式进行组合
- 查询所有match_all
- 结果过滤:默认情况下,elasticsearch在搜索的结果中,会把文档中保存在 _source 的所有字段都返回;只想获取其中的部分字段,可以添加 _source 的过滤
- 直接指定字段
- 指定includes和excludes
- 直接指定字段
- 过滤:
- 排序:sort 可以让我们按照不同的字段进行排序,并且通过 order 指定排序的方式
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。