timebusker的博客

[置顶] 经典图形笔记

做票需要分析市场主线、环境、能量以及四面（基本面、技术面、消息面、政策面），选择好目标后在趋势内要保持好耐心，快不如慢交易的本质要走到大众情绪的对立面，识别市场情绪、大众情绪，跟随市场情绪，反向大众情绪做交易跟随。时分情绪回暖 K线趋势图时分量价背离容易发套黄白...

Posted by timebusker on 2024-12-05

[置顶] 经典美句收录集合

赞美美句我想不出任何你需要改变的地方，我爱你的全部。普天之下唯一能够影响他人的方式，就是找出他们想要什么，并且教给他们如何获得。如果成功有诀窍的话，那就是我们能洞悉他人的立场，同时还能兼顾自己和他人的立场。励志美句 ...

Posted by timebusker on 2022-08-10

MySQL学习笔记（三）— MySQL异常解决办法

MySQL常用配置

MySQL学习笔记（二）—MySQL常用配置 MySQL-JDBC-URL异常 # URL:jdbc:mysql://hdp-cluster-6:3306/hive_a?createDatabaseIfNotExist=true&useUnicode=true&ch...

Posted by timebusker on 2018-06-25

Spark笔记(十八)-Spark transformation算子之coalesce&&repartition

coalesce coalesce算子最基本的功能就是返回一个numPartitions个partition的RDD，算子的结果默认是窄依赖。 def coalesce(numPartitions: Int, shuffle: Boolean = false,partitionCoale...

Posted by timebusker on 2018-06-25

Spark笔记(十七)-SparkCore的源码解读之启动与SparkSubmit

启动过程通过Shell脚本启动Master，Master类继承Actor类，通过ActorySystem创建并启动。通过Shell脚本启动Worker，Worker类继承Actor类，通过ActorySystem创建并启动。 Worker通过Akka或者Netty发送消...

Posted by timebusker on 2018-06-25

Spark笔记(十六)-SparkCore的调优之JVM-GC垃圾收集器

GC JVM中，程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭，栈帧随着方法的进入和退出做入栈和出栈操作，实现了自动的内存清理，因此，我们的内存垃圾回收主要集中于java堆和方法区中，在程序运行期间，这部分内存的分配和使用都是动态的。垃圾收集 Garbage Collectio...

Posted by timebusker on 2018-06-25

Spark笔记(十五)-SparkCore的调优之JVM架构

JVM的结构图 JVM内存结构主要有三大块：堆内存、方法区和栈。堆内存是JVM中最大的一块由年轻代和老年代组成，而年轻代内存又被分成三部分，Eden空间、From Survivor空间、To Survivor空间,默认情况下年轻代按照8:1:1的比例来分配； ...

Posted by timebusker on 2018-06-25

Spark笔记(十四)-SparkCore的调优之资源调优

为spark提交的作业提供合理的资源分配 Spark作业运行使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动...

Posted by timebusker on 2018-06-25

Spark笔记(十三)-SparkCore的调优之内存模型

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 J...

Posted by timebusker on 2018-06-25

Spark笔记(十二)-SparkCore的调优之Shuffle调优

大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 Shuffle Spark作业的运行主要分为两部分： - Driver，其核心是SparkContext - Worker，运行节点上Task处...

Posted by timebusker on 2018-06-25

Spark笔记(十一)-SparkCore的调优之数据倾斜调优

数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM...

Posted by timebusker on 2018-06-25

Spark笔记(十)-SparkCore的调优之开发调优

Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并...

Posted by timebusker on 2018-06-25

Spark笔记(九)-Spark本地开发环境搭建

winutil模拟器设置下载对应hadoop版本包选择对应版本配置配置HADOOP_HOME、Path (null) entry in command string: null chmod 0644 将对应hadoop...

Posted by timebusker on 2018-06-25

Spark笔记(八)-Spark在不同集群中的运行架构

Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、Y...

Posted by timebusker on 2018-06-25

Spark笔记(七)-Spark运行流程

基本概念 Application：客户端应用程序 Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContex...

Posted by timebusker on 2018-06-25

Spark笔记(六)-Spark的广播变量和累加器

概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是...

Posted by timebusker on 2018-06-25

Spark笔记(五)-Spark之RDD-算子API使用（二）

算法实例 workCount TopN 多主键排序 package com.timebusker import org.apache.spark.{Partitioner, SparkConf, SparkContext} import scala.collection...

Posted by timebusker on 2018-06-25