当前位置: 首页 > news >正文

【Hadoop 10周年】我与Hadoop不得不说的故事

初识Hadoop

初次接触Hadoop是在2008年,那时我还在读研,研究的大方向为智能信息处理,也是跟云计算沾了点边,为了准备第二年的毕业论文,在茫茫资料大海中,偶然间看到了一篇关于Hadoop介绍的文章,从那之后,便是断断续续的慢慢了解、熟悉。

为什么说我是断断续续的了解呢?因为那个时候包括云计算都是才刚刚兴起,Hadoop在国内研究的人还不多,充斥在网络上的大部分资料也都是英文的,不像现在,并没有系统讲解Hadoop的中文书籍、文章。要看的就只有官网上的文章,我那个时候的感觉就是摸着石头过河。又因为本人学业的原因,选择了另外一个数据处理的课题-粒计算,所以说,并没有深入去学习研究Hadoop。

概述

作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算。Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。分别是谷歌发表的三篇大数据论文:Google File System、Google MapReduce、Google BigTable,这三篇文章奠定了Hadoop开源系统的理论和实践应用基础,Hadoop就是在此理论的启发的基础上设计了自己的开源的系统。

Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

不解之缘

工作以后,机缘巧合之下,公司里要使用ZooKeeper对公司现有的软件应用做一致性的服务管理,这个时候,透过对于ZooKeeper的改造使用,又重新捡起了Hadoop,加上本人有着Java语言和机器学习的基础。因而,我能够很快地进行Hadoop技术的学习和实践。


也是从那时开始,心里产生了系统学习下Hadoop这个热门技术的想法。头脑中闪现着我到底想要要学习Hadoop技术哪些方面。
通过浏览Hadoop官网、Hadoop经典著作、Hadoop相关技术文档和博客等等,我的头脑中慢慢形成了我自己的Hadoop技术学习路线图。

明确自己学习的内容

当自己静下心来之后,脑海中想的更多的还是要如何在业余时间能够学好Hadoop,通过多方面的考虑,结合自己的实际情况,我想从以下几个方面循序渐进的进行学习:

  • Hadoop基础。了解Hadoop的发展历程、Hadoop的应用场景、Hadoop的核心架构,以及Hadoop的环境构建。
  • Hadoop编程。研究HDFS和MapReduce工作原理,掌握MapReduce编程,探讨Hadoop程序的性能优化。
  • Hadoop应用。涉及到MapReduce程序的应用和Hadoop技术的综合应用。
  • Hadoop的源码解析。搭建源码阅读环境,在理解Hadoop核心架构的基础上,深入理解Hadoop的源码。
  • Hadoop生态系统里的项目。常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等等,有针对性的深入研究两到三个项目。

坚持在CSDN上写博客

为了自我督促自己的学习,我专门在CSDN上开始写关于Hadoop的博客,从通过虚拟机搭建第一个伪分布式的环境,到真正意义上的小规模迷你Hadoop集群,再到Hadoop源码的学习研究,中间遇到的问题,如何解决问题,都记录到了自己的博客中,并建立了研磨Hadoop专栏,专门去研究学习Hadoop的方方面面。通过这个方式与热心的网友进行沟通学习,由此,我收获颇大。我的博客地址:海兰-CSDN博客。

写在最后

最后,世上无难事只怕有心人,按照自己初定的想法,一步步的走下去吧,虽然有时会步履蹒跚,但是,终究是一步一步在往前走。现在我时时关注Hadoop技术的进展,时常想想如何使用Hadoop技术解决大数据时代里的各种问题,并且在自己搭建的简陋环境里进行实践尝试。虽然本人只是在业余时间进行研究,硬件条件也很有限,但是,终究还是有一颗积极向上的心。也以此篇作为学习研究Hadoop的个人阶段性的总结吧。希望Hadoop发展越来越好。

列一下自己的书单与众位志同道合者共飨:

  • Hadoop: The Definitive Guide
  • Hadoop Operations
  • Hadoop in Action
  • Pro Hadoop
  • Hadoop in Practice
  • MapReduce Design Patterns
  • MapReduce2.0源码分析与编程实战
  • 高可用性的HDFS:Hadoop分布式文件系统深度实践
  • Hadoop技术内幕:深入解析YARN架构设计与实现原理
  • Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
  • 云计算(第二版)
http://www.zskr.cn/news/1454516.html

相关文章:

  • 罐体倒罐监测 磁翻板液位计十大品牌 设备液位定点监控 - 仪表人叶工
  • LabVIEW上位机+51单片机串口联动控制四相五线步进电机(含ULN2003驱动电路与完整工程文件)
  • 成都西装定制时尚指南:2024年5家潮流店铺深度测评 - 西装爱好者
  • KDiff3终极指南:如何快速掌握免费文件比较与合并工具
  • OpenIPC固件:为海思、君正等主流IP摄像头芯片提供完整开源解决方案
  • 粮食检测报告审核进入智能时代:AI报告审核助力IACheck实现效率翻倍与质量双提升
  • 告别环境冲突!在Win11的Anaconda里为Sionna和TensorFlow/PyTorch创建独立工作区
  • 树莓派DIY复古街机:从硬件选型到RetroPie系统配置全攻略
  • [开源] 电子健康档案访问透明时间线:面向患者知情权与信息科合规管理的审计可视化系统
  • R语言可视化进阶:如何用bayesplot和ggplot2定制出版级贝叶斯分析报告?
  • PostgreSQL 中 now() 函数事务内行为异常,clock_timestamp() 成解决方案
  • 通达信缠论插件终极指南:5分钟让复杂技术分析变简单
  • 绕过小米社区5级限制:一个Python脚本+替换系统App的BL解锁思路拆解
  • Arduino DS1307 RTC与OLED时钟项目:从I2C通信到时间显示全解析
  • 基于ESP8266与GPS模块的宠物追踪器:物联网全栈开发实践
  • ZYNQ-7020软硬协同电磁超声测厚方案:含伪随机编码激励、匹配滤波压缩与微伏级回波时延提取
  • 保姆级教程:在Proxmox VE 8上用OSX-PROXMOX脚本装macOS Monterey(附VNC远程避坑指南)
  • PHP文件上传处理完整指南
  • 【官方渠道变更公示】2026年6月南京建发璞云售楼处官方热线发布. - 速递信息
  • 磁轴键盘推荐!IQUNIX EV63实测 这键盘不入后悔
  • Python-sc2实战:教你写一个会运营的神族AI(自动造农民、水晶、兵营)
  • 2026咸阳各区金银铂金回收去哪靠谱?本地正规回收门店精选榜单+联系号码 - 余生黄金回收
  • RapidOCR:从毫秒级到微秒级的实时OCR推理优化技术架构
  • 从数据到地图:手把手教你用Arcgis完成人口统计与分级设色出图(附完整配置流程)
  • 2026年贵阳代理记账公司怎么选?资深财税服务商深度横评与官方直达指南 - 精选优质企业推荐官
  • PDFMathTranslate:科研人的终极翻译神器,5分钟告别英文论文阅读障碍
  • Adobe-GenP 3.0:如何高效管理Adobe Creative Cloud软件授权
  • 自动驾驶模型部署实战:将BevFormer的时空注意力模块移植到TensorRT(含性能优化技巧)
  • 液压泵的‘奇数’与‘偶数’:聊聊叶片数、柱塞数如何影响系统平稳性与你的咖啡机
  • 从皮肤病变到胸部CT:聊聊CPFNet模型在4类医学图像分割任务中的实战表现与调优心得