Apache Hive Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 系统架构 对外接口:包括命令行,Web界面,Thrift接口,JDBC等 Driver驱动器:管理HiveQL的生命周期,通过编译器和优化器创建执行计划,通过执行器执行执行计划。解析器将 2024-03-13 大数据 大数据
Data Mesh What is Data MeshA set of principles to build a modern data architecture. Like microservice is a set of principles to build a modern software. We can think about data mesh as a network (include nodes 2024-03-13 大数据 大数据
History of data platform architecture Data warehousing:The history of data warehousing started with helping business leaders get analytical insights by collecting data from operational databases into centralized warehouses, which then co 2024-03-12 大数据 大数据
大数据发展历程 大数据技术在过去几十年中取得了巨大的发展。从最初的数据仓库概念,到后来的Hadoop技术和数据湖、再到如今的大数据平台和数据中台,每一个阶段带动着技术和业务的变革。 本文将梳理大数据发展的历程,包含数据仓库、数据湖、大数据平台和数据中台四个阶段。并运用”Why-What-How”的结构分别梳理每个阶段的演变原因,要解决的问题以及支撑技术。 数据仓库: Why:随着企业信息化程度的不断提高,企业需要 2023-11-08 大数据
Spark数据缓存机制及错误容忍机制 本文将重点介绍Spark框架中两个关键特性:数据缓存机制和错误容忍机制。数据缓存机制使得数据能够在内存中共享和重复使用,从而极大地提高了任务的执行速度。错误容忍机制则保证了即使在分布式环境中出现故障或错误,Spark仍能保持稳定运行,从而提供可靠的数据处理。 Spark数据缓存机制理解Spark的数据缓存机制,首先需要回答以下几个问题: 哪些数据需要缓存:多个job共同依赖的、会被重复使用的中间 2023-07-06 大数据 Spark
Spark Shuffle机制 Shuffle机制Apache Spark是一个强大的分布式计算框架,它能够高效地处理大规模数据集并加速数据处理过程。其中一个关键的特性就是其Shuffle机制,理解Spark的Shuffle机制对于理解Spark作业的执行至关重要。本文将分别介绍Spark的Shuffle Write阶段和Shuffle Read阶段,并在最后与MapReduce Shuffle机制进行比较。 简介Shuffle 2023-07-05 大数据 Spark
Autofac:.NET平台上的依赖注入容器 Autofac:.NET平台上的依赖注入容器在现代软件设计中,依赖注入(Dependency Injection,简称DI)已经被广泛应用。使用DI可以带来如下好处: 实现对象之间的松耦合:依赖注入容器能够将对象之间的依赖关系从代码中解耦,通过容器管理对象之间的依赖关系。这使得代码更加灵活、可维护且易于扩展。 提高可测试性:在单元测试时,使用依赖注入容器可以轻松注入mock的依赖项。 便于对象生 2023-06-28 编程语言 C#
Hive安装指南 1.下载Hive下载Hive并解压:https://dlcdn.apache.org/hive/ 2. 修改环境变量1sudo vi /etc/profile 添加如下(需将HIVE_HOME修改为本地Hive路径): 12345export HIVE_HOME=/home/Yihua/App/apache-hive-2.3.9-binexport PATH=$HIVE_HOME/bin:$PAT 2023-02-27 大数据 大数据
云计算 如今,云计算作为一个无所不包的信息技术服务平台,它抽象了多个大型数据中心内的海量计算存储资源,对外提供了从基础设施到托管平台不同层次、不同粒度的在线服务和组件。其分为Iaas,PaaS和SaaS三个层次: IaaSIaaS 的本质,是对云上各类 IT 基础设施的抽象 区域(Region):表示云计算厂商在某个地理位置提供的所有云服务的组合 可用区(Availability Zone),:表示一个完 2023-02-12 工具
【Leetcode】32.最长有效括号 32.最长有效括号给你一个只包含 ‘(‘ 和 ‘)’ 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 示例 1: 输入:s = "(()" 输出:2 解释:最长有效括号子串是 "()" 示例 2: 输入:s = ")()())" 输出:4 解释:最长有效括号子串是 "()()" 示例 3: 输入 2021-05-05 算法 动态规划