add transfermation api

zhangblue · zhangblue · commit b8fd44f00869 · 2020-07-04T23:21:13.000+08:00
diff --git a/src/main/resources/kafka/home-consumer.properties b/src/main/resources/kafka/home-consumer.properties
@@ -0,0 +1,33 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements.  See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License.  You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# see kafka.consumer.ConsumerConfig for more details
+
+# Zookeeper connection string
+# comma separated host:port pairs, each corresponding to a zk
+# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002"
+zookeeper.connect=192.168.247.103:2181/kafka011
+bootstrap.servers=192.168.247.103:9092
+
+
+# timeout in ms for connecting to zookeeper
+zookeeper.connection.timeout.ms=6000
+
+#consumer group id
+group.id=test-consumer-group
+
+#consumer timeout
+#consumer.timeout.ms=5000
+
+auto.offset.reset=latest
diff --git a/src/main/resources/temperature-sensor.txt b/src/main/resources/temperature-sensor.txt
@@ -0,0 +1,6 @@
+sensor_1,1547718299,Redis,35.8,北京
+sensor_6,1547718201,Kafka,15.4,广州
+sensor_7,1547718202,Flume,6.7,武汉
+sensor_8,1547718205,Spark,38.1,深圳
+sensor_1,1547718399,Tomcat,32.8,乌鲁木齐
+sensor_1,1547718499,Hadoop,33.8,石家庄
diff --git a/src/main/scala/com/zhangblue/api/SourceTest.scala b/src/main/scala/com/zhangblue/api/SourceTest.scala
@@ -1,12 +1,10 @@
 package com.zhangblue.api
 
-import java.util.Properties
+
 import java.util.concurrent.TimeUnit
 
-import org.apache.flink.api.common.serialization.SimpleStringSchema
 import org.apache.flink.streaming.api.functions.source.SourceFunction
 import org.apache.flink.streaming.api.scala.{DataStream, _}
-import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
 
 import scala.util.Random
 
diff --git a/src/main/scala/com/zhangblue/entity/TemperatureSensor.scala b/src/main/scala/com/zhangblue/entity/TemperatureSensor.scala
@@ -0,0 +1,12 @@
+package com.zhangblue.entity
+
+/**
+ * 温度传感器对象类
+ *
+ * @param id          传感器id
+ * @param timestamp   时间戳
+ * @param name        旅客的名字
+ * @param temperature 温度
+ * @param location    传感器位置
+ */
+case class TemperatureSensor(id: String, timestamp: Long, name: String, temperature: Double, location: String)
diff --git a/src/main/scala/com/zhangblue/source/kafka/KafkaAsSourceDemo.scala b/src/main/scala/com/zhangblue/source/kafka/KafkaAsSourceDemo.scala
@@ -0,0 +1,40 @@
+package com.zhangblue.source.kafka
+
+import java.util.Properties
+
+import com.zhangblue.entity.TemperatureSensor
+import org.apache.flink.api.common.serialization.{DeserializationSchema, SimpleStringSchema}
+import org.apache.flink.streaming.api.scala._
+import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
+
+/**
+ * 以kafka中的数据作为dataStream的Source的来源
+ */
+object KafkaAsSourceDemo {
+  def main(args: Array[String]): Unit = {
+    //1. 环境
+    val env = StreamExecutionEnvironment.getExecutionEnvironment
+
+    //2. 定义kafka作为source，计算，并显示结果
+    val topic = "my-flink-topic"
+    val valueDeserializationSchema: DeserializationSchema[String] = new SimpleStringSchema()
+    val props: Properties = new Properties()
+    props.load(this.getClass.getClassLoader.getResourceAsStream("kafka/home-consumer.properties"))
+    val kafkaSource = env.addSource(new FlinkKafkaConsumer011[String](topic, valueDeserializationSchema, props))
+
+    kafkaSource.filter(_.trim.nonEmpty).map(fun = linedata => {
+      val arr = linedata.split(",")
+      val id = arr(0).trim
+      val timestamp = arr(1).trim.toLong
+      val name = arr(2).trim
+      val temperature = arr(3).trim.toDouble
+      val location = arr(4).trim
+      TemperatureSensor(id, timestamp, name, temperature, location)
+    }).print("source from kafka : ")
+
+    //3. 启动
+    env.execute("source from kafka demo")
+
+
+  }
+}
diff --git a/src/main/scala/com/zhangblue/source/self/SelfAsSourceDemo.scala b/src/main/scala/com/zhangblue/source/self/SelfAsSourceDemo.scala
@@ -0,0 +1,71 @@
+package com.zhangblue.source.self
+
+import java.util.concurrent.TimeUnit
+
+
+import com.zhangblue.entity.TemperatureSensor
+import org.apache.flink.streaming.api.functions.source.SourceFunction
+import org.apache.flink.streaming.api.scala._
+
+import scala.io.Source
+import scala.util.Random
+
+/**
+ * 自定义source
+ *
+ * 读取src/main/resources/temperature-sensor.txt文件，每1秒随机取文件中的一行内容，封装成自定义类，作为source发送给stream
+ */
+object SelfAsSourceDemo {
+  def main(args: Array[String]): Unit = {
+    //1. 环境
+    val env = StreamExecutionEnvironment.getExecutionEnvironment
+    //2. 自定义SourceFunction接口的子类
+    //2.1 方式1： 匿名内部类
+    //2.2 方式2： 成员内部类
+    val sleepTime = 1
+    val logFilePath = "src/main/resources/temperature-sensor.txt"
+    val mySrc = new MySource(sleepTime, logFilePath)
+    //3. 从自定义的Source中读取数据，计算，显示结果
+    env.addSource(mySrc).print("自定义source结果 : ")
+    //4. 启动
+    env.execute("SelfAsSourceDemo")
+  }
+
+  /**
+   * 自定义source实现类
+   *
+   * @param sleepTimeSec 休息时间
+   * @param logFilePath  日志文件的路径
+   */
+  private class MySource(sleepTimeSec: Int, logFilePath: String) extends SourceFunction[TemperatureSensor] {
+
+    /**
+     * 标识值：true->继续发送数据 false->停止发送数据
+     */
+    private var flg = true
+
+    override def run(ctx: SourceFunction.SourceContext[TemperatureSensor]): Unit = {
+      //1. 读取文件, 封装成TemperatureSensor的实例
+      val lst: List[TemperatureSensor] = Source
+        .fromFile(logFilePath).getLines().toList.map(lineData => {
+        val arr = lineData.split(",")
+        val id = arr(0).trim
+        val timestamp = arr(1).trim.toLong
+        val name = arr(2).trim
+        val temperature = arr(3).trim.toDouble
+        val location = arr(4).trim
+        TemperatureSensor(id, timestamp, name, temperature, location)
+      })
+      //2. 如果没有cancel，通过循环来模拟每间隔1秒钟向Source发送一条数据。
+      while (flg) {
+        val randomIndex = Random.nextInt(lst.size)
+        val randomInfo = lst(randomIndex)
+        ctx.collect(randomInfo)
+        TimeUnit.SECONDS.sleep(sleepTimeSec)
+      }
+    }
+
+    override def cancel(): Unit = flg = false
+  }
+
+}
diff --git a/src/main/scala/com/zhangblue/transformation/ConnectedStreamDemo.scala b/src/main/scala/com/zhangblue/transformation/ConnectedStreamDemo.scala
@@ -0,0 +1,85 @@
+package com.zhangblue.transformation
+
+import java.util.Properties
+
+import com.zhangblue.entity.TemperatureSensor
+import org.apache.flink.api.common.serialization.{DeserializationSchema, SimpleStringSchema}
+import org.apache.flink.streaming.api.functions.ProcessFunction
+import org.apache.flink.streaming.api.scala._
+import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
+import org.apache.flink.util.Collector
+
+/**
+ * connect demo
+ */
+object ConnectedStreamDemo {
+  def main(args: Array[String]): Unit = {
+    //需求：基于之前的侧输出流的案例，将主输出流与测输出流集中寄来，进行统一处理
+    val env = StreamExecutionEnvironment.getExecutionEnvironment
+
+    val topic = "my-flink-topic"
+    val valueDeserializationSchema: DeserializationSchema[String] = new SimpleStringSchema()
+    val props: Properties = new Properties()
+    props.load(this.getClass.getClassLoader.getResourceAsStream("kafka/home-consumer.properties"))
+    val kafkaSource = env.addSource(new FlinkKafkaConsumer011[String](topic, valueDeserializationSchema, props))
+
+    //获得source
+    val srcDataStream: DataStream[TemperatureSensor] = kafkaSource.filter(_.trim.nonEmpty).map(fun = lineData => {
+      val arr = lineData.split(",")
+      val id = arr(0).trim
+      val timestamp = arr(1).trim.toLong
+      val name = arr(2).trim
+      val temperature = arr(3).trim.toDouble
+      val location = arr(4).trim
+      TemperatureSensor(id, timestamp, name, temperature, location)
+    })
+
+    //针对DataStream调用侧输出流进行处理
+    val outputTag: OutputTag[TemperatureSensor] = OutputTag("temperature_exception")
+    val resultDataStream: DataStream[TemperatureSensor] = srcDataStream.process[TemperatureSensor](new MyProcessFunction(outputTag))
+
+    //主输出流
+    val mainDataStream: DataStream[(String, String)] = resultDataStream.map(data => (data.id, data.name))
+    //测输出流
+    val sideOutputStream: DataStream[(String, String, Double, Long)] = resultDataStream.getSideOutput(outputTag).map(data => (data.id, data.name, data.temperature, data.timestamp))
+
+    //合并两个流中的数据,获得ConnectedStreams
+    val connDataStream: ConnectedStreams[(String, String), (String, String, Double, Long)] = mainDataStream.connect(sideOutputStream)
+
+    //ConnectedStreams进行集中式处理 
+    val finalDataStream: DataStream[String] = connDataStream.map(
+      mStreamData => s"传感器id = ${mStreamData._1} , 旅客名 = ${mStreamData._2} , 您的体温正常",
+      oStreamData => s"传感器id = ${oStreamData._1} , 旅客名 = ${oStreamData._2} , 您的体温异常 = ${oStreamData._3}, 时间 = ${oStreamData._4}"
+    )
+
+    finalDataStream.print()
+
+    env.execute(this.getClass.getSimpleName)
+  }
+
+  /**
+   * 自定义一个ProcessFunction子类
+   *
+   * @param outputTag 用来给侧输出流中的数据添加标签
+   *
+   */
+  private class MyProcessFunction(outputTag: OutputTag[TemperatureSensor]) extends ProcessFunction[TemperatureSensor, TemperatureSensor] {
+    /**
+     * 每分析DataStream中的一个元素，下述方法就执行一次
+     *
+     * @param value 当前的元素
+     * @param ctx   上下文信息，用于向侧输出流中写入数据
+     * @param out   用于向主输出流中写入数据
+     */
+    override def processElement(value: TemperatureSensor, ctx: ProcessFunction[TemperatureSensor, TemperatureSensor]#Context, out: Collector[TemperatureSensor]): Unit = {
+      if (value.temperature < 37) {
+        //取出体温正常的信息
+        out.collect(value)
+      } else {
+        //取出体温异常的信息
+        ctx.output[TemperatureSensor](outputTag, value)
+      }
+    }
+  }
+
+}
diff --git a/src/main/scala/com/zhangblue/transformation/ReduceDemo.scala b/src/main/scala/com/zhangblue/transformation/ReduceDemo.scala
@@ -0,0 +1,48 @@
+package com.zhangblue.transformation
+
+import java.util.Properties
+
+import com.zhangblue.entity.TemperatureSensor
+import org.apache.flink.api.common.functions.ReduceFunction
+import org.apache.flink.api.common.serialization.{DeserializationSchema, SimpleStringSchema}
+import org.apache.flink.streaming.api.scala._
+import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
+
+/**
+ * reduce算子
+ */
+object ReduceDemo {
+
+  def main(args: Array[String]): Unit = {
+    //需求：获取每个传感器获取的最新戳与最高的温度
+    //1. 环境
+    val env = StreamExecutionEnvironment.getExecutionEnvironment
+    //2. 读取kafka源，根据传感器的id进行分组，计算每个传感器的最新时间戳与最高温度
+    val topic = "my-flink-topic"
+    val valueDeserializationSchema: DeserializationSchema[String] = new SimpleStringSchema()
+    val props: Properties = new Properties()
+    props.load(this.getClass.getClassLoader.getResourceAsStream("kafka/home-consumer.properties"))
+    val kafkaSource = env.addSource(new FlinkKafkaConsumer011[String](topic, valueDeserializationSchema, props))
+
+    kafkaSource.filter(_.trim.nonEmpty).map(fun = lineData => {
+      val arr = lineData.split(",")
+      val id = arr(0).trim
+      val timestamp = arr(1).trim.toLong
+      val name = arr(2).trim
+      val temperature = arr(3).trim.toDouble
+      val location = arr(4).trim
+      TemperatureSensor(id, timestamp, name, temperature, location)
+    }).keyBy(data => data.id).reduce(new MyReduce).print("最终结果 ：")
+    //3. 启动
+    env.execute(this.getClass.getSimpleName)
+  }
+
+  //自定义reduce function
+  class MyReduce extends ReduceFunction[TemperatureSensor] {
+    override def reduce(value1: TemperatureSensor, value2: TemperatureSensor): TemperatureSensor = {
+      TemperatureSensor(value1.id, value1.timestamp.max(value2.timestamp), value1.name, value1.temperature.max(value2.temperature), value1.location)
+    }
+  }
+
+}
+
diff --git a/src/main/scala/com/zhangblue/transformation/RollingAggregationDemo.scala b/src/main/scala/com/zhangblue/transformation/RollingAggregationDemo.scala
@@ -0,0 +1,38 @@
+package com.zhangblue.transformation
+
+import java.util.Properties
+
+import com.zhangblue.entity.TemperatureSensor
+import org.apache.flink.api.common.serialization.{DeserializationSchema, SimpleStringSchema}
+import org.apache.flink.streaming.api.scala._
+import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
+
+/**
+ * 滚动聚合算子演示
+ *
+ */
+object RollingAggregationDemo {
+  def main(args: Array[String]): Unit = {
+    //需求，求出传感器迄今为止探索到的最高温度的传感器数据
+    //1. 环境
+    val env = StreamExecutionEnvironment.getExecutionEnvironment
+    //2. 读取kafka源，根据传感器的id进行分组，求每组中最大的温度值，并显示结果
+    val topic = "my-flink-topic"
+    val valueDeserializationSchema: DeserializationSchema[String] = new SimpleStringSchema()
+    val props: Properties = new Properties()
+    props.load(this.getClass.getClassLoader.getResourceAsStream("kafka/home-consumer.properties"))
+    val kafkaSource = env.addSource(new FlinkKafkaConsumer011[String](topic, valueDeserializationSchema, props))
+
+    kafkaSource.filter(_.trim.nonEmpty).map(fun = lineData => {
+      val arr = lineData.split(",")
+      val id = arr(0).trim
+      val timestamp = arr(1).trim.toLong
+      val name = arr(2).trim
+      val temperature = arr(3).trim.toDouble
+      val location = arr(4).trim
+      TemperatureSensor(id, timestamp, name, temperature, location)
+    }).keyBy("id").maxBy("temperature").print("最高温度的传感器信息为：")
+    //3. 启动
+    env.execute(this.getClass.getSimpleName)
+  }
+}
diff --git a/src/main/scala/com/zhangblue/transformation/SideOutputDemo.scala b/src/main/scala/com/zhangblue/transformation/SideOutputDemo.scala
diff --git a/src/main/scala/com/zhangblue/transformation/SplitAndSelectDemo.scala b/src/main/scala/com/zhangblue/transformation/SplitAndSelectDemo.scala