我是一名专业的大数据工程师,写这个博客为了记录工作上和生活上的点滴收获。除了明确标明,均属于个人原创,任何形式的转载请联系本人。 -- 关于我

Writing..

姨搜简介 这个PPT介绍了姨搜是什么,以及我们做了什么。 Read more

与防火墙的抗争 公司的机房对于安全特别较真,端口不轻易开放给开发者,想做远程调试非常费劲。这个文章记录我如何与防火墙抗争,最后赢得主动权的。真不容易。 Read more

ElasticSearch与Hbase数据迁移 机房迁移等工作有大量的数据迁移工作,DistCp是HDFS数据迁移的标准工具,很多人都有实践过。而ES和HBase的迁移比较少有人提及,这篇文章就包含了我的一点经验,希望能帮助你。 Read more

Maven中版本兼容性的解决 Hadoop、Hbase、Spark和ES的混合编程中遇到了Guava版本不兼容的问题,本文对原因和解决方案进行了详细的记录。 Read more

编译Impala 本文讲述了如何用社区办的Hadoop来编译Impala,以及遇到一些问题的解决办法。 Read more

Sql on Hadoop 对比 本文对比了一些常见的Hadoop之上的SQL引擎,分析了它们的功能,并且实际运行TPC-DS的benchmark来体现出它们的性能,并最后给使用者提出出了一些建议。 Read more