HSM 개발공부

  • 홈
  • 태그
  • 방명록

RDD 1

Spark의 핵심 RDD

RDD (Resilient Distributed Datasets) RDD는 변경 불가능하며 파티셔닝된 레코드들의 모음이다. (변경 안되고, 나누어져있는 기록들) RDD를 조작하는 코드를 짠다는 것은 실제로 조작하는 것이 아니라 어떻게 조작할지 기록하는 행위다. Directed acyclic graph(DAG)형태로 Lineage를 기록하는 과정이다. Transformation과 Actions RDD Operator에는 지연 처리 방식의 transformation과 즉시 실행 방식의 action 두 가지 operator가 있다. transformation operator는 데이터를 어떻게 조작할지 정의하는 operator(Lineage를 작성하는 operator)이고 action operator는 실제로 ..

Data Engineering/Spark 2022.02.08
1
더보기
프로필사진

  • 분류 전체보기 (37)
    • Computer Science (14)
      • Network (2)
      • Data Structure & Algorithm (7)
      • Computer Architecture (5)
    • Linux (4)
    • Shell Script (0)
    • Data Engineering (16)
      • Kafka (7)
      • Airflow (4)
      • Spark (5)
    • Database (3)

Tag

ETL, 컴퓨터구조, 복제, 스케쥴링, 그래프, 분산처리, kafka, replica, Python, 카프카, spark, 인덱스, 성능개선, airflow, 리눅스, cluster, Linux, 자료구조, Controller, 스파크,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/12   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바