思维要走到多数人的前面,甚至是对立面

[置顶] 经典图形笔记

做票需要分析市场主线、环境、能量以及四面(基本面、技术面、消息面、政策面),选择好目标后在趋势内要保持好耐心,快不如慢 交易的本质要走到大众情绪的对立面,识别市场情绪、大众情绪,跟随市场情绪,反向大众情绪做交易跟随。 时分情绪回暖 K线趋势图 时分量价背离容易发套 黄白...

[置顶] 经典美句收录集合

赞美美句 我想不出任何你需要改变的地方,我爱你的全部。 普天之下唯一能够影响他人的方式,就是找出他们想要什么,并且教给他们如何获得。 如果成功有诀窍的话,那就是我们能洞悉他人的立场,同时还能兼顾自己和他人的立场。 励志美句 ...

Spark笔记(十八)-Spark transformation算子之coalesce&&repartition

coalesce coalesce算子最基本的功能就是返回一个numPartitions个partition的RDD,算子的结果默认是窄依赖。 def coalesce(numPartitions: Int, shuffle: Boolean = false,partitionCoale...

Spark笔记(十七)-SparkCore的源码解读之启动与SparkSubmit

启动过程 通过Shell脚本启动Master,Master类继承Actor类,通过ActorySystem创建并启动。 通过Shell脚本启动Worker,Worker类继承Actor类,通过ActorySystem创建并启动。 Worker通过Akka或者Netty发送消...

Spark笔记(十六)-SparkCore的调优之JVM-GC垃圾收集器

GC JVM中,程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭,栈帧随着方法的进入和退出做入栈和出栈操作,实现了自动的内存清理, 因此,我们的内存垃圾回收主要集中于java堆和方法区中,在程序运行期间,这部分内存的分配和使用都是动态的。 垃圾收集 Garbage Collectio...

Spark笔记(十五)-SparkCore的调优之JVM架构

JVM的结构图 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空间、To Survivor空间,默认情况下年轻代按照8:1:1的比例来分配; ...

Spark笔记(十四)-SparkCore的调优之资源调优

为spark提交的作业提供合理的资源分配 Spark作业运行 使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动, 也可能在集群中某个工作节点上启动...

Spark笔记(十三)-SparkCore的调优之内存模型

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 J...

Spark笔记(十二)-SparkCore的调优之Shuffle调优

大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 Shuffle Spark作业的运行主要分为两部分: - Driver,其核心是SparkContext - Worker,运行节点上Task处...

Spark笔记(十一)-SparkCore的调优之数据倾斜调优

数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM...

Spark笔记(十)-SparkCore的调优之开发调优

Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。 然而,通过Spark开发出高性能的大数据计算作业,并...

Spark笔记(九)-Spark本地开发环境搭建

winutil模拟器设置 下载对应hadoop版本包 选择对应版本配置配置HADOOP_HOME、Path (null) entry in command string: null chmod 0644 将对应hadoop...

Spark笔记(八)-Spark在不同集群中的运行架构

Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时, 既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式 (Spark自带的模式)、Y...

Spark笔记(七)-Spark运行流程

基本概念 Application:客户端应用程序 Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContex...

Spark笔记(六)-Spark的广播变量和累加器

概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。 这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的, 但是...

Spark笔记(五)-Spark之RDD-算子API使用(二)

算法实例 workCount TopN 多主键排序 package com.timebusker import org.apache.spark.{Partitioner, SparkConf, SparkContext} import scala.collection...

Spark笔记(五)-Spark之RDD-算子API使用(一)

Transformation算子 map(func()) 对于多层集合嵌套,需要确保函数能够处理当前迭代元素 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 接收一个函数,对于RDD中的每一个元素执行此函数操作,结果返回到原集合中。 // 单层集合 val ...