Skip to Content

GPFS란?

빠른 속도의 환경에서는 여러 노드에서 동시 읽기가 가능한 파일 시스템이 필요합니다. IBM General Parallel File System(GPFS)은 1998년에 개발되었지만, AI(인공지능)와 ML(머AI러닝)을 애플리케이션에 활용하는 기업을 위한 하나의 옵션입니다. 이러한 애플리케이션은 더 빠른 처리를 위해 여러 노드에서 액세스할 수 있는 대용량 및 고성능 스토리지가 필요합니다.

GPFS란?

엔터프라이즈 수준의 애플리케이션은 페타바이트에 달하는 데이터가 저장되어 있는 여러 디스크와 함께 작동합니다. IBM GPFS 파일 시스템은 느린 디스크 스토리지 기술로 인한 병목 현상을 방지하기 위해 데이터를 빠르게 제공할 수 있습니다. 새로운 GPFS 기술은 메타데이터를 여러 디스크 스토리지 노드에 분산시키며, 데이터는 여러 디스크에도 분산됩니다. 여러 디스크에 데이터를 분산하면 애플리케이션이 여러 디스크에서 동시에(즉, 병렬로) 데이터를 검색하여 더 많은 데이터를 동시에 검색할 수 있습니다. 이 기술은 애플리케이션이 단일 디스크에서 모든 데이터가 검색될 때까지 기다려야 할 때 발생하는 일반적인 병목 현상을 극복합니다.

GPFS의 특징

GPFS의 병렬 입력 및 출력은 파일 시스템을 AI 및 ML 애플리케이션을 위한 더 나은 옵션 중 하나로 만들지만, 이 기술은 다음과 같은 여러 가지 기능을 제공합니다.

  • SAN(Storage Area Network)에 저장된 수십억 개의 파일과 호환 
  • SAN 디바이스와 GPFS의 편리한 관리 및 통합
  • 대용량 동시 사용자가 있는 애플리케이션을 지원하는 고속 읽기 및 쓰기
  • 낮은 레이턴시로 엑사바이트의 데이터를 읽고 씁니다.

GPFS 활용 사례

고성능 컴퓨팅(HPC)은 최고의 기술을 필요로 하지만, 기업들은 종종 스토리지 수준에서 병목 현상이 발생한다는 사실을 잊어버립니다. 스토리지 하드웨어에 공급되어 데이터를 읽거나 쓸 수 있는 가장 빠른 CPU, 서버, 메모리 및 네트워크 전송 속도를 제공할 수 있습니다. 그러나 스토리지 기술이 느리면 병목 현상이 발생하고 애플리케이션이 느려집니다. 

GPFS의 몇 가지 활용 사례:

  • 데이터센터를 위한 성능 엔지니어링
  • 대량의 데이터 처리가 필요한 애플리케이션
  • 머신러닝 및 인공지능 수집 및 처리
  • 멀티 애플리케이션 스토리지 및 처리
  • 수 페타바이트의 대용량 스토리지

GPFS 아키텍처

GPFS는 분산 아키텍처를 사용하며, 이는 데이터가 여러 스토리지 장치에 걸쳐 있음을 의미합니다. 여러 서버 또는 SAN 위치에 데이터가 저장되며, 여러 네트워크 연결이 이러한 스토리지 장치를 연결합니다. 애플리케이션이 데이터를 읽어야 하는 경우, 여러 네트워크 위치를 사용하여 데이터를 병렬로 읽을 수 있습니다. 즉, 모든 스토리지 위치에서 동시에 데이터를 읽어야 합니다.

GPFS 아키텍처의 몇 가지 핵심 구성 요소:

  • 데이터는 여러 스토리지 위치에 저장되지만, 데이터를 설명하는 메타데이터도 여러 서버에 저장됩니다.
  • 데이터를 저장하는 서버는 여러 클라우드 또는 온프레미스 위치에 있을 수 있습니다.
  • 빠른 네트워크 연결은 GPFS 스토리지를 사용하여 스토리지 위치와 애플리케이션을 상호 연결합니다.
  • 스토리지 디바이스를 위한 고급 기술은 필수적입니다.

GPFS와 기존 파일 시스템 비교

GPFS는 Hadoop Distributed File System (HDFS)과 비교되는 경우가 많습니다. 둘 다 대용량 데이터를 저장하기 위한 것이지만, 성능과 확장성에 영향을 미치는 몇 가지 차이점이 있습니다. 두 파일 시스템 모두 데이터를 세분화하여 네트워크 전체의 노드에 저장하지만, GPFS에는 Posix 시맨틱이 있어 Windows를 포함한 다양한 Linux 배포 및 운영 체제와 호환됩니다. 

Hadoop 인덱싱에는 대규모의 1차 및 2차 메타데이터 서버가 필요하지만, GPFS는 특수 서버 없이 시스템 전반에 메타데이터를 배포합니다. 분산된 데이터도 Hadoop보다 작은 블록으로 되어 있기 때문에 특히 데이터를 병렬로 읽기 때문에 읽기 속도가 더 빨라집니다. GPFS는 Hadoop보다 더 많은 데이터 스토리지 용량을 필요로 하지만, 읽기 사이클 동안 훨씬 더 빠릅니다.

GPFS 모범 사례

파일 읽기 및 쓰기를 최적의 속도로 유지하려면 먼저 성능을 위한 네트워크 인프라를 확보해야 합니다. GPFS 스토리지 시스템은 병렬로 판독되므로 성능 우선 네트워킹 장비를 갖추면 데이터 전송에 병목현상이 발생하지 않습니다. 퓨어스토리지 Pure Cloud Block Store의 인프라는 대용량 디스크 읽기를 위한 애플리케이션 성능을 보존합니다. Portworx FlashArray

애플리케이션이 운영 체제 파일을 포함한 전체 파일 시스템에 액세스하지 못하도록 파일 공유는 디렉터리 레벨 마운트 포인트와 함께 사용해야 합니다. 디스크 전체가 아닌 디렉터리를 기반으로 장착하면 디스크를 호스팅하는 서버의 데이터와 무결성을 더 잘 보호할 수 있습니다. 관리자는 또한 애플리케이션 읽기 절차와 무관한 민감한 파일을 분리하여 무단 액세스의 위험을 줄여야 합니다.

결론

AI 및 머신러닝 애플리케이션의 고성능 컴퓨팅 성능을 위해 빠른 스토리지가 필요한 경우, 퓨어스토리지는 비즈니스 성장과 사용자 만족도에 필요한 확장성을 지원하는 인프라를 갖추고 있습니다. 관리자는 값비싼 프로비저닝 및 설치 없이 HPC용 디스크를 배포할 수 있습니다. HPC 인프라는 고속 애플리케이션에 무결성, 성능, 확장성 및 차세대 처리를 제공하도록 구축되었습니다.

다음을 추천드립니다.

09/2025
엔터프라이즈 데이터 클라우드를 통한 데이터 가치 극대화
스토리지 사일로를 통합 지능형 데이터 컨트롤러로 대체하는 현대적 접근 방식
백서
9 pages

주요 자료 및 이벤트를 확인하세요

퓨어//액셀러레이트 로드쇼(PURE//ACCELERATE ROADSHOWS)
곧 여러분의 도시로 찾아갑니다. 지금 확인하세요.

세계에서 가장 앞선 데이터 스토리지 플랫폼과 엔터프라이즈 데이터 클라우드가 여러분에게 무엇을 제공하는지 직접 경험해보세요.

지금 등록하기
동영상
동영상 시청: 엔터프라이즈 데이터 클라우드의 가치

찰스 쟌칼로(Charles Giancarlo) CEO가 전하는 스토리지가 아닌 데이터 관리가 미래인 이유 통합 접근 방식이 기업 IT 운영을 어떻게 혁신하는지 알아보세요

지금 시청하기
유용한 자료
레거시 스토리지는 미래를 지원할 수 없습니다.

현대적 워크로드에는 AI 지원 속도, 보안, 확장성이 필수입니다. 귀사의 IT 스택, 준비됐나요?

지금 확인하기
퓨어360(PURE260) 데모
퓨어스토리지를 직접 탐색하고, 배우고, 경험해보세요.

퓨어스토리지의 역량을 확인할 수 있는 온디맨드 비디오와 데모를 시청하세요.

데모영상 시청하기
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.