Python学习100天(从入门到精通系列文章)文章目录Python学习100天(从入门到精通系列文章)前言一、Hive概述1.1 Hive的主要作用1.2 Hive的特点二、环境搭建2.1 准备工作2.2 Java环境2.3 MySQL环境2.4 启动环境三、Hadoop常用命令四、Hive基本语法4.1 数据库操作4.2 创建外部表4.3 加载数据4.4 分区表4.5 数据查询示例4.6 分组聚合五、Hive数据类型与建表5.1 数据类型5.2 表类型对比5.3 常用修饰符六、Hive常用函数6.1 数学函数6.2 字符串函数6.3 日期时间函数6.4 聚合函数6.5 窗口函数七、HiveSQL vs MySQL对比八、性能优化总结前言学完了 MySQL数据库的操作,我们已经掌握了关系型数据库的核心技能。但面对海量数据时,传统的关系型数据库往往会力不从心。今天我们来学习 Hive——Apache 旗下最流行的大数据仓库工具,它能用 SQL 的方式处理 PB 级别的数据,是大数据工程师的必备技能。一、Hive概述Hive 是 Facebook 开源的一款基于 Hadoop 的数据仓库工具,目前由 Apache 软件基金会维护,它是应用最为广泛的大数据解决方案。简单来说,Hive 能将 SQL 查询转变为 MapReduce 或 Spark 任务,对 SQL 提供了完美的支持,能够非常方便地实现大数据统计,让不会使用 Java、Scala 语言的人也可以玩转大数据平台和分布式文件系统。1.1 Hive的主要作用将结构化的数据文件映射为一张表。提供类 SQL 的查询语言 HiveQL 来操作大规模数据。底层依赖 Hadoop 的 HDFS 存储和 MapReduce / Spark / Tez 引擎执行任务。1.2 Hive的特点特点说明