IceKe Blog

Stay simple, stay naive


  • 首页

  • 关于

  • 归档

  • 标签

摸索性重写Spark的groupByKey(shuffle部分)

发表于 2016-12-02
一开始实现这个特性的时候,我并不能预见其性能是否可以优化,但是不可以不尝试。 我姑且把它叫做工程师的调性. 现有的工作与策略上面的前言虽说出了口,却又觉得中二,给人一种鸣人站在所有boss面前嚎着:“这就是我的忍道!”的既视感。但总觉得不得不说出来,而且是认真的那种。尝试嘛,是一个可以让人投入他所有的激情和年华在一件事上的词,此事未必带来较大的意义,但此事在经过尝试给人以信念后,会让他这一生变得更加有趣,甚至是伟大。如果有人将此作为自己做任何事的方法论,那我必然是无比佩服他的。这些话不是我刻意 ...
阅读全文 »

偶遇超级僵尸进程

发表于 2016-11-28
你怎么死来死去都死不了啊? 其实我差点就死了,你再给我多一点点时间,我就死定了。 ----喜剧之王 写在前面的话僵尸进程是经常遇到的,解决起来也比较方便。但一个偶然的机会遇到了一个父进程为1号进程的的僵尸进程,这个父进程肯定是不能随意杀死的,否则会导致严重的后果,至于什么严重的后果我也没测试过,搜了一下好像也没人细说。所以我私自地给它命名为超级僵尸进程,听起来给人一种很厉害的感觉,但又略带有一些调侃,加上上面的一句喜剧之王的台词,显得饶有趣味,好吧,岔开了,进入正题。 Normal Z ...
阅读全文 »

论如何调配jvm

发表于 2016-11-26
一些要交代的我的研究生主题大概可以用两个字概括,那就是搞spark。两个字可能不太严谨,因为读出来感觉就是搞斯帕克。其历经之路也可以高度总结一下: 安装配置spark -> 写常用的spark应用 -> 读spark源码 -> 优化spark。当然优化spark,并不一定要从内核入手,有很多种方案,比如写出优雅的应用程序,调配置参数,官方还给出了一个重要的优化方案,那就是jvm优化,毕竟spark这种分布式系统很多都跑在jvm上。附上spark团队给的优化向导地址,里面有一部分 ...
阅读全文 »

科学配置hive+mysql+hadoop

发表于 2016-11-24
mysql配置先前的服务器mysql有一些莫名地故障,于是准备重装。贸然重装肯定是一件愚蠢的事,首先要做的是把原有的mysql卸载干净。但如果你的mysql能正常地工作,那当我没提起这件事。卸载遵循以下步骤: *运行rpm -qa|grep -i mysql。 显示如下: *删掉它们,当然之前要停止mysql服务,运行rpm -e --nodeps 包名 *查找之前老版本mysql的目录、并且删除老版本mysql的文件和库,运行find / -name mysql,会出现很多关于mysql的目 ...
阅读全文 »

在大菠萝中遇到的一些小问题

发表于 2016-10-10
大菠萝的任务大菠萝全名diablo technology,是一家硬件技术外企.但是我是一名纯软界的小小码农,怎么会帮一个硬件公司做事呢.起初是这家公司中国区的技术人员跟我们组里的陆博大大比较熟,他们想招一两个懂Spark的人帮他们做一些测试和性能上的优化来得出他们研发的新硬件M1相比于市场上普通内存的特性与性能差异.于是陆博建议我担任这份兼职,工作不多而且还可以增一份不错的收入,众所周知,这种事情我是无法拒绝的. 为了推广M1,他们需要在M1上运行很多工业市场上流行的吃内存的软件与平台,包括sp ...
阅读全文 »
1234
IceKe

IceKe

stay simple, stay naive

19 日志
23 标签
RSS
GitHub Weibo
友情链接
  • Hexo
  • 个人简历
© 2015 - 2020 IceKe