wyh's space 
  • 首页
  • 归档
  • 分类
  • 标签
  •   
  •   
_

Apache Hive

Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 系统架构 对外接口:包括命令行,Web界面,Thrift接口,JDBC等 Driver驱动器:管理HiveQL的生命周期,通过编译器和优化器创建执行计划,通过执行器执行执行计划。解析器将

2024-03-13
大数据
大数据

Data Mesh

What is Data MeshA set of principles to build a modern data architecture. Like microservice is a set of principles to build a modern software. We can think about data mesh as a network (include nodes

2024-03-13
大数据
大数据

History of data platform architecture

Data warehousing:The history of data warehousing started with helping business leaders get analytical insights by collecting data from operational databases into centralized warehouses, which then co

2024-03-12
大数据
大数据

大数据发展历程

大数据技术在过去几十年中取得了巨大的发展。从最初的数据仓库概念,到后来的Hadoop技术和数据湖、再到如今的大数据平台和数据中台,每一个阶段带动着技术和业务的变革。 本文将梳理大数据发展的历程,包含数据仓库、数据湖、大数据平台和数据中台四个阶段。并运用”Why-What-How”的结构分别梳理每个阶段的演变原因,要解决的问题以及支撑技术。 数据仓库: Why:随着企业信息化程度的不断提高,企业需要

2023-11-08
大数据

Spark数据缓存机制及错误容忍机制

本文将重点介绍Spark框架中两个关键特性:数据缓存机制和错误容忍机制。数据缓存机制使得数据能够在内存中共享和重复使用,从而极大地提高了任务的执行速度。错误容忍机制则保证了即使在分布式环境中出现故障或错误,Spark仍能保持稳定运行,从而提供可靠的数据处理。 Spark数据缓存机制理解Spark的数据缓存机制,首先需要回答以下几个问题: 哪些数据需要缓存:多个job共同依赖的、会被重复使用的中间

2023-07-06
大数据
Spark

Spark Shuffle机制

Shuffle机制Apache Spark是一个强大的分布式计算框架,它能够高效地处理大规模数据集并加速数据处理过程。其中一个关键的特性就是其Shuffle机制,理解Spark的Shuffle机制对于理解Spark作业的执行至关重要。本文将分别介绍Spark的Shuffle Write阶段和Shuffle Read阶段,并在最后与MapReduce Shuffle机制进行比较。 简介Shuffle

2023-07-05
大数据
Spark

Autofac:.NET平台上的依赖注入容器

Autofac:.NET平台上的依赖注入容器在现代软件设计中,依赖注入(Dependency Injection,简称DI)已经被广泛应用。使用DI可以带来如下好处: 实现对象之间的松耦合:依赖注入容器能够将对象之间的依赖关系从代码中解耦,通过容器管理对象之间的依赖关系。这使得代码更加灵活、可维护且易于扩展。 提高可测试性:在单元测试时,使用依赖注入容器可以轻松注入mock的依赖项。 便于对象生

2023-06-28
编程语言
C#

Hive安装指南

1.下载Hive下载Hive并解压:https://dlcdn.apache.org/hive/ 2. 修改环境变量1sudo vi /etc/profile 添加如下(需将HIVE_HOME修改为本地Hive路径): 12345export HIVE_HOME=/home/Yihua/App/apache-hive-2.3.9-binexport PATH=$HIVE_HOME/bin:$PAT

2023-02-27
大数据
大数据

云计算

如今,云计算作为一个无所不包的信息技术服务平台,它抽象了多个大型数据中心内的海量计算存储资源,对外提供了从基础设施到托管平台不同层次、不同粒度的在线服务和组件。其分为Iaas,PaaS和SaaS三个层次: IaaSIaaS 的本质,是对云上各类 IT 基础设施的抽象 区域(Region):表示云计算厂商在某个地理位置提供的所有云服务的组合 可用区(Availability Zone),:表示一个完

2023-02-12
工具

【Leetcode】32.最长有效括号

32.最长有效括号给你一个只包含 ‘(‘ 和 ‘)’ 的字符串,找出最长有效(格式正确且连续)括号子串的长度。   示例 1: 输入:s = "(()" 输出:2 解释:最长有效括号子串是 "()" 示例 2: 输入:s = ")()())" 输出:4 解释:最长有效括号子串是 "()()" 示例 3: 输入

2021-05-05
算法
动态规划
123…18

搜索

Hexo Fluid