先说几点重要体会:
- 新手不要自己配置hadoop和hive分析环境!不要配置环境!不要配置环境!如果自信能够完成环境配置的请尝试下。反正我是花了两天来配置环境,结果一直返回一些错误的结果,心力交瘁,学习的热情都没有了。我觉得新手入门最好是快速去学习,而不是花很多精力去折腾一些非重点的事情。
- 寻找合适的学习资源 (付费是最好的)和环境平台。既然我们不自己配置环境了,那就得自己找环境了,总不能只看书和视频不动手练习。在这里我推荐两款可以练习在线环境:实验楼的《Hive教程》和cloudxlab的《hive-project》。前者的好处是不用翻墙,并且费用也并不高。但是我在导入上传的数据集到建好的表格的时候总是报错,我也不知道是什么原因。后者是我首要推荐的,因为cloudxlab它有step by step的课程,你按照它左边的教程,对应去训练,达到一种即学即用,交互式的效果。闯关似地完成17个训练以后基本上就对hive基础用法了解差不多了。
当然cloudxlab是收费的,但是有7天的试用期,试用结束后每个月是15刀,3个月是30刀。当你成功邀请一个人的时候又可以多增加15天的试用期。个人觉得这个价钱是相当划算的,当然如果你只是需要一个平台来训练hive,想要免费的平台,也有,请往下看到最后。
- 备好cheat sheet。从编程入门开始,到数据分析再到数据挖掘,再到接触深度学习都快有2年时间了,我现在的感悟是,自己还可以学得更快,而更快其实意味着是更好,排除掉错误的学习方式,只做有用的动作。cheat sheet就是这样一个很有用的策略。它可以帮助你从宏观的角度去最为全面掌握一个工具的最常用用法,而你需要进一步了解的时候再去谷歌和百度就行了。
其实我觉得学习技能,很难学会的原因一个是不常用的难学会,第二个是要用的时候不能马上检索到,这个也是个很大的阻碍。而cheat sheet恰恰是在你需要用到的时候就能用上。
关于hive cheat sheet可以参考这个链接。
其他资源
还有一些很好的资源,我想推荐一下:
- 免费的Hive大数据平台:http://demo.gethue.com/hue/editor/?type=hive
这个是我很偶然在Quora上面发现的一个交互式Hive平台,是免费的,账户和密码都是demo。
- 相关书籍:
《Programming Hive》 - 一个有许多小抄的地方:
datacamp cheat sheet