Flink开发IDEA环境搭建与测试的方法

作者：血影修罗 | 来源：互联网 | 2021-09-13 01:51

这篇文章主要介绍了Flink开发IDEA环境搭建与测试的方法,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

一.IDEA开发环境

1.pom文件设置


    1.8
    1.8
    UTF-8
    2.11.12
    2.11
    2.7.6
    1.6.1
  
  
    
      org.scala-lang
      scala-library
      ${scala.version}
    
    
      org.apache.flink
      flink-java
      ${flink.version}
    
    
      org.apache.flink
      flink-streaming-java_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.flink
      flink-scala_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.flink
      flink-streaming-scala_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.flink
      flink-table_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.flink
      flink-clients_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.flink
      flink-connector-kafka-0.10_${scala.binary.version}
      ${flink.version}
    
    
      org.apache.hadoop
      hadoop-client
      ${hadoop.version}
    
    
      mysql
      mysql-connector-java
      5.1.38
    
    
      com.alibaba
      fastjson
      1.2.22
    
  
  
    src/main/scala
    src/test/scala
    
      
        net.alchim31.maven
        scala-maven-plugin
        3.2.0
        
          
            
              compile
              testCompile
            
            
              
                
                -dependencyfile
                ${project.build.directory}/.scala_dependencies
              
            
          
        
      
      
        org.apache.maven.plugins
        maven-surefire-plugin
        2.18.1
        
          false
          true
          
            **/*Test.*
            **/*Suite.*
          
        
      
      
        org.apache.maven.plugins
        maven-shade-plugin
        3.0.0
        
          
            package
            
              shade
            
            
              
                
                  *:*
                  
                    META-INF/*.SF
                    META-INF/*.DSA
                    META-INF/*.RSA
                  
                
              
              
                
                  org.apache.spark.WordCount

2.flink开发流程

Flink具有特殊类DataSet并DataStream在程序中表示数据。您可以将它们视为可以包含重复项的不可变数据集合。在DataSet数据有限的情况下，对于一个DataStream元素的数量可以是无界的。

这些集合在某些关键方面与常规Java集合不同。首先，它们是不可变的，这意味着一旦创建它们就无法添加或删除元素。你也不能简单地检查里面的元素。

集合最初通过在弗林克程序添加源创建和新的集合从这些通过将它们使用API方法如衍生map，filter等等。

Flink程序看起来像是转换数据集合的常规程序。每个程序包含相同的基本部分：

1.获取execution environment,

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2.加载/创建初始化数据

DataStream text = env.readTextFile(file:///path/to/file);

3.指定此数据的转换

val mapped = input.map { x => x.toInt }

4.指定放置计算结果的位置

writeAsText(String path)
print()

5.触发程序执行

在local模式下执行程序

execute()

将程序达成jar运行在线上

./bin/flink run \

-m node21:8081 \

./examples/batch/WordCount.jar \

--input hdfs:///user/admin/input/wc.txt\

--outputhdfs:///user/admin/output2\

二.Wordcount案例

1.Scala代码

package com.xyg.streaming

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.windowing.time.Time
/**
 * Author: Mr.Deng
 * Date: 2018/10/15
 * Desc:
 */
object SocketWindowWordCountScala {
 def main(args: Array[String]) : Unit = {
  // 定义一个数据类型保存单词出现的次数
  case class WordWithCount(word: String, count: Long)
  // port 表示需要连接的端口
  val port: Int = try {
   ParameterTool.fromArgs(args).getInt("port")
  } catch {
   case e: Exception => {
    System.err.println("No port specified. Please run 'SocketWindowWordCount --port '")
    return
   }
  }
  // 获取运行环境
  val env: StreamExecutiOnEnvironment= StreamExecutionEnvironment.getExecutionEnvironment
  // 连接此socket获取输入数据
  val text = env.socketTextStream("node21", port, '\n')
  //需要加上这一行隐式转换 否则在调用flatmap方法的时候会报错
  import org.apache.flink.api.scala._
  // 解析数据, 分组, 窗口化, 并且聚合求SUM
  val windowCounts = text
   .flatMap { w => w.split("\\s") }
   .map { w => WordWithCount(w, 1) }
   .keyBy("word")
   .timeWindow(Time.seconds(5), Time.seconds(1))
   .sum("count")
  // 打印输出并设置使用一个并行度
  windowCounts.print().setParallelism(1)
  env.execute("Socket Window WordCount")
 }
}

2.Java代码

package com.xyg.streaming;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;

/**
 * Author: Mr.Deng
 * Date: 2018/10/15
 * Desc: 使用flink对指定窗口内的数据进行实时统计，最终把结果打印出来
 *    先在node21机器上执行nc -l 9000
 */
public class StreamingWindowWordCountJava {
  public static void main(String[] args) throws Exception {
  //定义socket的端口号
  int port;
  try{
    ParameterTool parameterTool = ParameterTool.fromArgs(args);
    port = parameterTool.getInt("port");
  }catch (Exception e){
    System.err.println("没有指定port参数，使用默认值9000");
    port = 9000;
  }
  //获取运行环境
  StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  //连接socket获取输入的数据
  DataStreamSource text = env.socketTextStream("node21", port, "\n");
  //计算数据
  DataStream windowCount = text.flatMap(new FlatMapFunction() {
    public void flatMap(String value, Collector out) throws Exception {
      String[] splits = value.split("\\s");
      for (String word:splits) {
        out.collect(new WordWithCount(word,1L));
      }
    }
  })//打平操作，把每行的单词转为类型的数据
      //针对相同的word数据进行分组
      .keyBy("word")
      //指定计算数据的窗口大小和滑动窗口大小
      .timeWindow(Time.seconds(2),Time.seconds(1))
      .sum("count");
  //把数据打印到控制台,使用一个并行度
  windowCount.print().setParallelism(1);
  //注意：因为flink是懒加载的，所以必须调用execute方法，上面的代码才会执行
  env.execute("streaming word count");
}

  /**
   * 主要为了存储单词以及单词出现的次数
   */
  public static class WordWithCount{
    public String word;
    public long count;
    public WordWithCount(){}
    public WordWithCount(String word, long count) {
      this.word = word;
      this.count = count;
    }

    @Override
    public String toString() {
      return "WordWithCount{" +
          "word='" + word + '\'' +
          ", count=" + count +
          '}';
    }
  }

}

3.运行测试

首先，使用nc命令启动一个本地监听，命令是：

[admin@node21 ~]$ nc -l 9000

通过netstat命令观察9000端口。netstat -anlp | grep 9000，启动监听如果报错：-bash: nc: command not found，请先安装nc，在线安装命令：yum -y install nc。

然后，IDEA上运行flink官方案例程序

node21上输入

IDEA控制台输出如下

4.集群测试

这里单机测试官方案例

[admin@node21 flink-1.6.1]$ pwd
/opt/flink-1.6.1
[admin@node21 flink-1.6.1]$ ./bin/start-cluster.sh 
Starting cluster.
Starting standalonesession daemon on host node21.
Starting taskexecutor daemon on host node21.
[admin@node21 flink-1.6.1]$ jps
StandaloneSessionClusterEntrypoint
TaskManagerRunner
Jps
[admin@node21 flink-1.6.1]$ ./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

程序连接到套接字并等待输入。您可以检查Web界面以验证作业是否按预期运行：

单词在5秒的时间窗口（处理时间，翻滚窗口）中计算并打印到stdout。监视TaskManager的输出文件并写入一些文本nc（输入在点击后逐行发送到Flink）：

三.使用IDEA开发离线程序

Dataset是flink的常用程序，数据集通过source进行初始化，例如读取文件或者序列化集合，然后通过transformation（filtering、mapping、joining、grouping）将数据集转成，然后通过sink进行存储，既可以写入hdfs这种分布式文件系统，也可以打印控制台，flink可以有很多种运行方式，如local、flink集群、yarn等.

1. scala程序

package com.xyg.batch

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

/**
 * Author: Mr.Deng
 * Date: 2018/10/19
 * Desc:
 */
object WordCountScala{
 def main(args: Array[String]) {
  //初始化环境
  val env = ExecutionEnvironment.getExecutionEnvironment
  //从字符串中加载数据
  val text = env.fromElements(
   "Who's there&＃63;",
   "I think I hear them. Stand, ho! Who's there&＃63;")
  //分割字符串、汇总tuple、按照key进行分组、统计分组后word个数
  val counts = text.flatMap { _.toLowerCase.split("\\W+") filter { _.nonEmpty } }
   .map { (_, 1) }
   .groupBy(0)
   .sum(1)
  //打印
  counts.print()
 }
}

2. java程序

package com.xyg.batch;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

/**
 * Author: Mr.Deng
 * Date: 2018/10/19
 * Desc:
 */
public class WordCountJava {
  public static void main(String[] args) throws Exception {
    //构建环境
    final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
    //通过字符串构建数据集
    DataSet text = env.fromElements(
        "Who's there&＃63;",
        "I think I hear them. Stand, ho! Who's there&＃63;");
    //分割字符串、按照key进行分组、统计相同的key个数
    DataSet> wordCounts = text
        .flatMap(new LineSplitter())
        .groupBy(0)
        .sum(1);
    //打印
    wordCounts.print();
  }
  //分割字符串的方法
  public static class LineSplitter implements FlatMapFunction> {
    @Override
    public void flatMap(String line, Collector> out) {
      for (String word : line.split(" ")) {
        out.collect(new Tuple2(word, 1));
      }
    }
  }
}

3.运行

到此这篇关于Flink开发IDEA环境搭建与测试的方法的文章就介绍到这了,更多相关Flink IDEA环境搭建内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

io
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
io
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
io
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
ip
iServer集成Hadoop YARN集群，详细操作指南解析分布式分析

HadoopYARN集群是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]

蜡笔小新 2023-10-14 16:24:53
scala
杭州｜大数据开发专家 2545K·15 薪

背景信息公司目前有40人，研发人员占比60-70% ... [详细]

蜡笔小新 2023-10-13 16:32:30
scala
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
spring
2021最新总结网易/腾讯/CVTE/字节面经分享（附答案解析）

本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题，包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记，并附带答案解析。 ... [详细]

蜡笔小新 2023-12-09 19:11:31
spring
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
config
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
version
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
io
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
spring
2019我的金三银四

先讲一下自己的情况吧，二本学生，17年毕业，目前在一家跨境电商从事Java技术开发工作（不是阿里，没那么厉害），技术栈目前偏向于容器云、持续集成持续交付这一块，也就是SpringBoot、Kuber ... [详细]

蜡笔小新 2023-10-16 10:41:46
get
Zookeeper 总结与面试题汇总

Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 12:51:19
ip
数据库异常智能分析与诊断

数据库,异常, ... [详细]

蜡笔小新 2023-10-14 10:52:47
io
Spark面试题汇总大全

1RDD简介RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计 ... [详细]

蜡笔小新 2023-10-13 12:55:35

血影修罗

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章