摸索性重写Spark的groupByKey(shuffle部分)

发表于 2016-12-02

一开始实现这个特性的时候，我并不能预见其性能是否可以优化，但是不可以不尝试。我姑且把它叫做工程师的调性. 现有的工作与策略上面的前言虽说出了口，却又觉得中二，给人一种鸣人站在所有boss面前嚎着：“这就是我的忍道！”的既视感。但总觉得不得不说出来，而且是认真的那种。尝试嘛，是一个可以让人投入他所有的激情和年华在一件事上的词，此事未必带来较大的意义，但此事在经过尝试给人以信念后，会让他这一生变得更加有趣，甚至是伟大。如果有人将此作为自己做任何事的方法论，那我必然是无比佩服他的。这些话不是我刻意 ...

阅读全文 »

偶遇超级僵尸进程

发表于 2016-11-28

你怎么死来死去都死不了啊？其实我差点就死了，你再给我多一点点时间，我就死定了。 ----喜剧之王写在前面的话僵尸进程是经常遇到的，解决起来也比较方便。但一个偶然的机会遇到了一个父进程为1号进程的的僵尸进程，这个父进程肯定是不能随意杀死的，否则会导致严重的后果，至于什么严重的后果我也没测试过，搜了一下好像也没人细说。所以我私自地给它命名为超级僵尸进程，听起来给人一种很厉害的感觉，但又略带有一些调侃，加上上面的一句喜剧之王的台词，显得饶有趣味，好吧，岔开了，进入正题。 Normal Z ...

阅读全文 »

论如何调配jvm

发表于 2016-11-26

一些要交代的我的研究生主题大概可以用两个字概括，那就是搞spark。两个字可能不太严谨，因为读出来感觉就是搞斯帕克。其历经之路也可以高度总结一下: 安装配置spark -> 写常用的spark应用 -> 读spark源码 -> 优化spark。当然优化spark，并不一定要从内核入手，有很多种方案，比如写出优雅的应用程序，调配置参数，官方还给出了一个重要的优化方案，那就是jvm优化，毕竟spark这种分布式系统很多都跑在jvm上。附上spark团队给的优化向导地址，里面有一部分 ...

阅读全文 »

科学配置hive+mysql+hadoop

发表于 2016-11-24

mysql配置先前的服务器mysql有一些莫名地故障，于是准备重装。贸然重装肯定是一件愚蠢的事，首先要做的是把原有的mysql卸载干净。但如果你的mysql能正常地工作，那当我没提起这件事。卸载遵循以下步骤： *运行rpm -qa|grep -i mysql。显示如下： *删掉它们，当然之前要停止mysql服务，运行rpm -e --nodeps 包名 *查找之前老版本mysql的目录、并且删除老版本mysql的文件和库,运行find / -name mysql，会出现很多关于mysql的目 ...

阅读全文 »

在大菠萝中遇到的一些小问题

发表于 2016-10-10

大菠萝的任务大菠萝全名diablo technology,是一家硬件技术外企.但是我是一名纯软界的小小码农,怎么会帮一个硬件公司做事呢.起初是这家公司中国区的技术人员跟我们组里的陆博大大比较熟,他们想招一两个懂Spark的人帮他们做一些测试和性能上的优化来得出他们研发的新硬件M1相比于市场上普通内存的特性与性能差异.于是陆博建议我担任这份兼职,工作不多而且还可以增一份不错的收入,众所周知,这种事情我是无法拒绝的. 为了推广M1,他们需要在M1上运行很多工业市场上流行的吃内存的软件与平台,包括sp ...

阅读全文 »

IceKe

stay simple, stay naive

RSS

GitHub Weibo