Dataproc

정형 데이터와 비정형 데이터 모두의 저장, 처리, 분석을 위해 데이터 레이크와 데이터 웨어하우스를 통합하는 사전 구성된 솔루션을 실행하세요. 무료로 사용해 보기

Dataproc

Dataproc은 Apache Hadoop, Apache Spark, Apache Flink, Presto, 30개 이상의 오픈소스 도구 및 프레임워크를 실행하기 위한 확장성이 뛰어난 완전 관리형 서비스입니다. Dataproc을 규모에 맞춰 Google Cloud와 완벽하게 통합하여 비용 부담 없이 데이터 레이크 현대화, ETL, 안전한 데이터 과학에 사용할 수 있습니다.

Dataproc 무료로 사용해 보기

유연성: Google Compute 및 Kubernetes에서 서버리스 사용 또는 클러스터 관리. 정형 데이터와 비정형 데이터 모두의 저장, 처리, 분석을 위해 데이터 레이크와 데이터 웨어하우스를 통합하는 Google 권장 솔루션을 배포합니다.
개방형: 엔터프라이즈 수준의 보안으로 대규모 오픈소스 데이터 분석 실행
지능형: Vertex AI, BigQuery, Dataplex와의 통합을 통해 데이터 사용자 사용 설정
보안: Kerberos, Apache Ranger, 개인 인증과 같은 고급 보안 구성
비용 효율성: 온프렘 데이터 레이크에 비해 초당 가격이 54% 더 낮은 TCO 실현

로고 링 중앙에 있는 Dataproc 아이콘: Apache Spark, Presto, Hive, Jupyter, Hadoop, Flink, Apache Pig

동영상

Dataproc은 Apache Spark, Presto, Flink 등과 같이 널리 사용되는 OSS를 지원합니다.

1:23

이점

오픈소스 데이터 처리 현대화

서버리스 배포, 로깅, 모니터링을 통해 인프라가 아닌 데이터 및 분석에 집중할 수 있습니다. Apache Spark 관리 TCO를 최대 54%까지 단축합니다. 모델을 5배 더 빠르게 빌드하고 학습시킵니다.

데이터 과학을 위한 원활한 지능형 OSS

데이터 과학자와 데이터 분석가가 BigQuery, Dataplex, Vertex AI, JupyterLab과 같은 OSS 노트북.와의 기본 통합을 통해 데이터 과학 작업을 원활하게 수행할 수 있게 합니다.

Google Cloud와 통합된 엔터프라이즈 보안

기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK)와 같은 보안 기능. 보안 구성을 추가하여 Kerberos를 통해 Hadoop 보안 모드를 사용 설정합니다.

주요 특징

완전 관리형의 자동화된 빅데이터 오픈소스 소프트웨어

서버리스 배포, 로깅, 모니터링을 통해 인프라가 아닌 데이터 및 분석에 집중할 수 있습니다. Apache Spark 관리 TCO를 최대 54%까지 단축합니다. 데이터 과학자와 엔지니어가 Vertex AI Workbench와의 통합을 통해 기존 노트북보다 5배 더 빠른 속도로 모델을 빌드하고 학습시킬 수 있습니다. Dataproc Jobs API를 사용하면 빅데이터 처리를 커스텀 애플리케이션에 쉽게 통합할 수 있으며 Dataproc Metastore를 사용하면 자체 Hive 메타스토어 또는 카탈로그 서비스를 실행할 필요가 없습니다.

Kubernetes로 Apache Spark 작업 컨테이너화

Google Kubernetes Engine(GKE)에서 Dataproc을 사용하여 작업 이동성 및 격리를 제공할 수 있도록 Kubernetes의 Dataproc을 사용하여 Apache Spark 작업을 빌드합니다.

Google Cloud와 통합된 엔터프라이즈 보안

Dataproc 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. 또한 Dataproc과 함께 가장 일반적으로 사용되는 Google Cloud만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.

Google Cloud의 최고의 기술을 갖춘 최고의 오픈소스

Dataproc으로 현재 사용하는 오픈소스 도구, 알고리즘, 프로그래밍 언어를 사용할 수 있지만 이들을 클라우드 규모의 데이터 세트에 쉽게 적용할 수 있습니다. 동시에 Dataproc은 즉시 사용 가능한 나머지 Google Cloud 분석, 데이터베이스, AI 생태계와 통합됩니다. 데이터 과학자와 엔지니어는 데이터에 빠르게 액세스하여 Dataproc을 BigQuery, Vertex AI, Spanner, Pub/Sub 또는 Data Fusion에 연결하는 데이터 애플리케이션을 빌드할 수 있습니다.

모든 특징 보기

왼쪽에 스프레드시트, 오른쪽에 휴대전화가 있는 은행 건물 미리보기 이미지

동영상

데모: Dataproc 및 Cloud Storage를 통해 대출 처리를 속도를 높이는 방법 알아보기

3:39

고객

Dataproc을 사용하는 고객 사례

Blog post

Dataproc으로 데이터 레이크를 현대화하고 유연한 데이터 관리를 실현한 Broadcom

전문 길이: 5분

Case study

Dataproc은 적은 유지보수 비용으로 대규모의 구조화되지 않은 데이터에 고성능으로 액세스할 수 있는 Wayfair를 제공합니다.

전문 길이: 8분

Video

Vodafone Group에서는 600개의 온프레미스 Apache Hadoop 서버를 클라우드로 이동했습니다.

47:17

Case study

Twitter는 데이터를 더욱 비용 효율적으로 저장하고 쿼리하기 위해 온프레미스 Hadoop에서 Google Cloud로 이동했습니다.

49:57

Case study

Pandora는 확장을 지원하고 비용을 절감하기 위해 7PB 이상의 데이터를 온프렘 Hadoop에서 Google Cloud로 마이그레이션했습니다.

50:51

Case study

METRO는 Dataproc 클러스터를 가동 및 종료하여 인프라 비용을 30~50% 절감했습니다.

전문 길이: 5분

모든 고객 보기

새로운 소식

이제 서버리스 Spark가 정식 버전으로 출시됩니다. Google Cloud 서비스의 다른 Spark를 미리 보려면 가입하세요.

Blog post

모든 데이터 사용자를 위한 원활한 서버리스 Spark 작업자세히 알아보기

Blog post

아키텍처 통합: 데이터 레이크와 데이터 웨어하우스 통합블로그 읽기

Blog post

새로운 Dataproc 권장사항 가이드자세히 알아보기

Blog post

새로운 GA Dataproc 기능으로 데이터 과학 및 ML 기능 확장자세히 알아보기

문서

Google Cloud Basics

서버리스 Spark

자동 프로비저닝 및 자동 확장되는 Spark 작업을 제출할 수 있습니다. 자세한 내용은 아래의 빠른 시작 링크를 참조하세요.

자세히 알아보기

APIs & Libraries

Dataproc 초기화 작업

사전 빌드된 초기화 작업으로 Dataproc 클러스터에 다른 OSS 프로젝트를 추가하세요.

자세히 알아보기

APIs & Libraries

오픈소스 커넥터

Apache Hadoop 상호 운용성을 위한 라이브러리 및 도구입니다.

자세히 알아보기

APIs & Libraries

Dataproc 워크플로 템플릿

Dataproc WorkflowTemplates API는 워크플로를 관리하고 실행하는 데 유연하고 사용이 간편한 메커니즘을 제공합니다.

자세히 알아보기

원하는 내용을 찾을 수 없으신가요?

모든 제품 문서 보기

출시 노트

Dataproc의 최신 출시 소식에 대해 읽어보세요.

사용 사례

Hadoop과 Spark 클러스터를 클라우드로 이동

많은 기업에서 비용을 관리하고 확장성의 이점을 활용하기 위해 기존 온프레미스 Apache Hadoop과 Spark 클러스터에서 Dataproc으로 마이그레이션하고 있습니다. Dataproc을 통해 기업에서는 어떤 데이터나 분석 처리 작업도 지원하도록 자동 확장할 수 있는 완전 관리형의 맞춤형 클러스터를 만들 수 있습니다.

Best practice

Apache Spark 마이그레이션 가이드

Google Cloud에 Spark 코드를 재작성하지 마세요.

자세히 알아보기

Best practice

Google Cloud로 HDFS 데이터 마이그레이션

온프레미스 HDFS 데이터를 Google Cloud Storage로 마이그레이션해야 할 시기와 방법을 알아보세요.

자세히 알아보기

Best practice

온프레미스에서 Dataproc로 보안 제어 이동

기존 보안 제어를 Dataproc으로 마이그레이션해 기업 및 업계 규정 준수를 실현하세요.

자세히 알아보기

사용 사례

Dataproc의 데이터 과학

목적에 맞게 구축된 Dataproc 클러스터를 가동해 이상적인 데이터 과학 환경을 조성하세요. Google Cloud AI 서비스와 GPU로 Apache Spark, NVIDIA RAPIDS, Jupyter 메모장 등 오픈소스 소프트웨어를 통합해 머신러닝과 AI 개발을 가속화하세요.

Tutorial

머신러닝에 Dataproc 및 Apache Spark ML 사용

다른 Google Cloud 서비스와 Dataproc을 통합해 엔드 투 엔드 데이터 과학 환경을 구축하세요.

자세히 알아보기

Best practice

Dataproc 허브를 통한 IT 관리형 오픈소스 데이터 사이언스

Dataproc 허브에서 IT 관리형 및 비용 제어 방법으로 데이터 과학자에게 필요한 모든 오픈소스 도구를 제공하는 방법을 알아보세요.

자세히 알아보기

Tutorial

YARN에서 Dataproc과 TensorFlow의 만남

TonY로 분산 TensorFlow를 조정하는 방법을 알아보세요.

자세히 알아보기

모든 기술 가이드 보기

모든 특징

모든 기능

서버리스 Spark	수동 인프라 프로비저닝 또는 조정 없이 자동 확장되는 Spark 애플리케이션 및 파이프라인을 배포합니다.
크기 조절이 가능한 클러스터	다양한 가상 머신 유형, 디스크 크기, 노드 수, 네트워킹 옵션으로 클러스터를 만들고 빠르게 확장할 수 있습니다.
클러스터 자동 확장	Dataproc 자동 확장은 클러스터 리소스 관리를 자동화하는 메커니즘을 제공하고 클러스터 작업자(노드)를 자동으로 가감하는 기능을 지원합니다.
클라우드 통합	Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging, Cloud Monitoring과 기본으로 통합되어 더욱 완전하고도 견고한 데이터 플랫폼을 제공합니다.
자동 또는 수동 구성	Dataproc은 하드웨어와 소프트웨어를 자동으로 구성하는 것은 물론 수동 제어 기능도 제공합니다.
개발자 도구	사용하기 쉬운 웹 UI, Cloud SDK, RESTful API, SSH 액세스 등 다양한 방식으로 클러스터를 관리할 수 있습니다.
초기화 작업	클러스터를 만들 때 초기화 작업을 실행하여 필요한 설정과 라이브러리를 설치하거나 맞춤설정할 수 있습니다.
선택적 구성요소	선택적 구성요소를 사용하여 클러스터에 추가 구성요소를 설치하고 구성합니다. 선택적 구성요소는 Dataproc 구성요소와 통합되며 Zeppelin, Presto는 물론 Apache Hadoop 및 Apache Spark 생태계와 관련된 다른 오픈소스 소프트웨어 구성요소에도 완전히 구성된 환경을 제공합니다.
커스텀 컨테이너 및 이미지	서버리스 Dataproc Spark는 커스텀 Docker 컨테이너로 프로비저닝할 수 있습니다. Dataproc 클러스터는 사전 설치된 Linux 운영체제 패키지가 포함된 커스텀 이미지로 프로비저닝할 수 있습니다.
유연한 가상 머신	클러스터에서 커스텀 머신 유형과 선점형 가상 머신을 사용하여 사용자 니즈에 최적화된 규모로 만들 수 있습니다.
워크플로 템플릿	Dataproc 워크플로 템플릿은 워크플로 관리와 실행을 위한 간편하고 유연한 메커니즘을 제공합니다. 워크플로 템플릿은 재사용 가능한 워크플로 구성으로서 작업을 실행할 위치에 관한 정보와 함께 작업 그래프를 정의합니다.
자동화된 정책 관리	클러스터 Fleet에서 보안, 비용, 인프라 정책을 표준화합니다. 프로젝트 수준에서 리소스 관리, 보안 또는 네트워크에 대한 정책을 만들 수 있습니다. 또한 사용자가 올바른 이미지, 구성요소, 메타스토어, 기타 주변기기 서비스를 손쉽게 사용할 수 있도록 하여 향후 클러스터 Fleet과 서버리스 Spark 정책을 관리할 수 있습니다.
스마트 알림	Dataproc 권장 알림을 사용하면 고객이 사전 구성된 알림의 기준을 조정하여 유휴 상태, 낭비되는 클러스터, 작업, 사용량이 많은 클러스터 등에 대한 알림을 받을 수 있습니다. 고객은 이러한 알림을 추가로 맞춤설정하고 고급 클러스터 및 작업 관리 기능을 만들 수도 있습니다. 이러한 기능을 통해 고객은 기기를 대규모로 Fleet를 관리할 수 있습니다.
Dataproc on Google Distributed Cloud(GDC)	Dataproc on GDC를 사용하면 데이터 센터의 GDC Edge 어플라이언스에서 Spark를 실행할 수 있습니다. 이제 Google Cloud는 물론 데이터 센터의 민감한 데이터에도 동일한 Spark 애플리케이션을 사용할 수 있습니다.
멀티 리전 Dataproc Metastore	Dataproc Metastore는 세분화된 액세스 제어 기능이 있는 완전 관리형 고가용성 Hive Metastore(HMS)입니다. 멀티 리전 Dataproc Metastore는 리전별 서비스 중단에 대한 활성-활성 DR 및 복원력을 제공합니다.

가격 책정

Dataproc 가격은 vCPU 수와 실행 시간에 따라 결정됩니다. 가격 책정에는 시간 단위 요금이 나와 있지만 Google에서는 실제 사용한 만큼만 결제할 수 있도록 초당 요금을 부과합니다.

예: 각각 2시간 동안 실행된 CPU가 4개이고 노드(기본 1개 + 작업자 5개)가 6개인 클러스터의 비용은 $0.48입니다. Dataproc 요금 = vCPU 수 * 시간 * Dataproc 가격 = 24 * 2 * $0.01 = $0.48

자세한 내용은 가격 책정 페이지를 참조하세요.

가격 책정 세부정보 보기

파트너

Dataproc은 기존 투자와 역량을 보완하기 위해 주요 파트너와 통합합니다.

모든 파트너 보기

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

(제품) 무료로 사용해 보기

시작하는 데 도움이 필요하신가요?
영업팀에 문의
신뢰할 수 있는 파트너 지원
파트너 찾기
계속 탐색
모든 제품 보기

오픈소스 데이터 처리 현대화

데이터 과학을 위한 원활한 지능형 OSS

Google Cloud와 통합된 엔터프라이즈 보안

주요 특징

완전 관리형의 자동화된 빅데이터 오픈소스 소프트웨어

Kubernetes로 Apache Spark 작업 컨테이너화

Google Cloud와 통합된 엔터프라이즈 보안

Google Cloud의 최고의 기술을 갖춘 최고의 오픈소스

Dataproc을 사용하는 고객 사례

새로운 소식

문서

서버리스 Spark

Dataproc 초기화 작업

오픈소스 커넥터

Dataproc 워크플로 템플릿

원하는 내용을 찾을 수 없으신가요?

문서 더보기

사용 사례

Hadoop과 Spark 클러스터를 클라우드로 이동

Dataproc의 데이터 과학

모든 기능

가격 책정

파트너

다음 단계 수행

시작하는 데 도움이 필요하신가요?

신뢰할 수 있는 파트너 지원

계속 탐색