timebusker的博客

[置顶] 经典图形笔记

做票需要分析市场主线、环境、能量以及四面（基本面、技术面、消息面、政策面），选择好目标后在趋势内要保持好耐心，快不如慢交易的本质要走到大众情绪的对立面，识别市场情绪、大众情绪，跟随市场情绪，反向大众情绪做交易跟随。时分情绪回暖 K线趋势图时分量价背离容易发套黄白...

Posted by timebusker on 2024-12-05

[置顶] 经典美句收录集合

赞美美句我想不出任何你需要改变的地方，我爱你的全部。普天之下唯一能够影响他人的方式，就是找出他们想要什么，并且教给他们如何获得。如果成功有诀窍的话，那就是我们能洞悉他人的立场，同时还能兼顾自己和他人的立场。励志美句 ...

Posted by timebusker on 2022-08-10

Spark笔记(五)-Spark之RDD-算子API使用（一）

Transformation算子 map(func()) 对于多层集合嵌套，需要确保函数能够处理当前迭代元素输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。接收一个函数，对于RDD中的每一个元素执行此函数操作，结果返回到原集合中。 // 单层集合 val ...

Posted by timebusker on 2018-06-25

Spark笔记(四)-Spark之RDD-持久化机制和Checkpoint机制

持久化机制所谓RDD的持久化，其实就是对RDD进行缓存，它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢？这与Spark作业的执行机制有关，我们知道，Spark程序只有遇到action算子的时候才会执行程序，具体的执行算法大致如下： Spark会以actionRDD为起点，...

Posted by timebusker on 2018-06-25

Spark笔记(四)-Spark之RDD-分区

基础知识分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。为什么要进行分区数据分区，...

Posted by timebusker on 2018-06-25

Spark笔记(三)-Spark之RDD

RDD的概述 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。...

Posted by timebusker on 2018-06-25

Spark笔记(二)-Spark安装使用

安装基础 JDK安装成功(必须，Spark使用scala语言编写，运行在JVM上) zookeeper安装成功（非必须，基于ZK配置Spark高可用） hadoop2.7.5 HA安装成功（非必须，启动spark服务，sc变量可直接读取...

Posted by timebusker on 2018-06-25

Spark笔记(一)-初识Spark

Spark介绍 Apache Spark™是用于大规模数据处理的统一分析引擎。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的Map...

Posted by timebusker on 2018-06-25

MySQL学习笔记（三）— MySQL异常解决办法

MySQL常用配置

MySQL学习笔记（二）—MySQL常用配置 (内存信息超过限制额)Container is running beyond memory limits # 异常信息： Application application_1545595549057_0003 failed 2 times...

Posted by timebusker on 2018-06-25

MySQL学习笔记（二）—MySQL常用配置

MySQL常用配置

MySQL学习笔记（二）—MySQL常用配置 MySQL本机免密登陆注：密码配置到文件以后是有安全隐患的，请根据自己的实际需求来配置。 # 编辑配置文件后保存即可实现 # vim /root/.my.cnf [client] host=localhost user=root pas...

Posted by timebusker on 2018-06-24

大数据学习姿势

大数据学习姿势：循序渐进…. 前言三个发展方向平台搭建、优化、运维、监控大数据开发、设计、架构数据分析、挖掘大数据的4大特征数据量大：TB->PB 数据类型繁多：结构化、非结构化文本、日志、视频、图片、地理位置等商业价值高：但是这种...

Posted by timebusker on 2018-06-15

Hadoop学习笔记 — Hadoop2.0架构新特性

Hadoop2.0新特性 NameNode HA NameNode Federation HDFS快照 HDFS缓存 HDFS ACL NameNode HA 背景 Hadoop 1.0中NameNode在整个HDFS中只有一个，存在单点故障风险,一旦Na...

Posted by timebusker on 2018-06-14

Linux（CentOS）让进程在后台可靠运行的几种方法

Linux（CentOS）让进程在后台可靠运行的几种方法 blog Linux 技巧：让进程在后台可靠运行的几种方法常用命令组合 # 标准输出到文件myout.file，并把标准错误输出重定向到标准输出中，写入文件 nohup command > myout.file 2&...

Posted by timebusker on 2018-06-06

IDEA打包JAR的多种方式

IDEA打包JAR的多种方式用IDEA自带的打包形式用maven-shade-plugin打包 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifac...

Posted by timebusker on 2018-06-06

Hadoop学习笔记 — Yarn公平调度器Fair Scheduler根据用户组分配资源池

在一个公司内部的Hadoop Yarn集群，肯定会被多个业务、多个用户同时使用，共享Yarn的资源，如果不做资源的管理与规划，那么整个Yarn的资源很容易被某一个用户提交的Application占满，其它任务只能等待，这种当然很不合理，我们希望每个业务都有属于自己的特定资源来运行MapRed...

Posted by timebusker on 2018-06-05

Hadoop学习笔记 — YARN资源管理器

Hadoop学习笔记—YARN资源管理器 Hadoop1.0架构回顾 Hadoop是Apache的一个开源分布式计算平台，以分布式文件系统HDFS，和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点形成分布式...

Posted by timebusker on 2018-06-05

Sqoop简单安装使用

概述 Sqoop 是apache旗下一款Hadoop和关系数据库服务器之间传送数据的**工具**。核心的功能有两个：导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到...

Posted by timebusker on 2018-06-02