지난 10년 동안 데이터가 무엇인지에 대한 정의와 이해가 극적으로 바뀌었습니다. 비정형 데이터를 읽고, 저장하고, 분석할 수 있는 새로운 도구의 가용성이 증가했기 때문입니다.
과거에는 해석의 어려움으로 인해 비정형 데이터가 제대로 활용되지 못했습니다. 하지만 이제는 새로운 기술을 통해 비정형 데이터를 더 쉽게 이해할 수 있을 뿐만 아니라 이와 같은 데이터의 보고에서 귀중한 인사이트를 얻을 수 있습니다.
IDC에 따르면, 2024년까지 전 세계에서 생성, 캡처, 복사 및 소비되는 데이터의 총량은 매년 149제타바이트를 넘어설 것이며 그중 상당수는 비정형 데이터가 될 것입니다. 모든 조직은 비정형 데이터 분석 기능을 구축함으로써 이점을 얻게 될 것입니다. 그리고 이와 같은 여정의 첫 번째 단계는 정형 데이터와 비정형 데이터가 무엇인지 이해하는 것입니다.
다음은 더 자세한 설명과 함께 이들의 차이점에 대한 간략한 요약입니다.
특징 |
정형 데이터 |
비정형 데이터 |
데이터의 특성 |
양적 데이터 |
질적 데이터 |
데이터 모델 |
사전에 정의됨. 모델이 정의되고 일부 데이터가 저장된 후에는 모델을 변경하기 어렵습니다. |
비정형 데이터에는 특정 스키마가 포함되지 않습니다. 데이터 모델은 매우 유연합니다. |
데이터 포맷 |
제한된 수의 데이터 포맷을 사용할 수 있습니다. |
비정형 데이터에는 매우 다양한 데이터 포맷을 사용할 수 있습니다. |
데이터베이스 |
SQL 기반 관계형 데이터베이스가 사용됩니다. |
특정 스키마가 없는 NoSQL 데이터베이스가 사용됩니다. |
검색 |
데이터베이스 또는 데이터 세트 내에서 데이터를 검색하고 찾기가 매우 쉽습니다. |
비정형 특성으로 인해 특정 데이터 검색이 매우 어렵습니다. |
분석 |
데이터의 양적 특성으로 인해 분석이 매우 쉽습니다. |
기존 소프트웨어 도구로도 분석이 매우 어렵습니다. |
저장 방법 |
정형 데이터에는 데이터 웨어하우스가 사용됩니다. |
비정형 데이터를 저장하는 데에는 데이터 레이크가 사용됩니다. |
정형 데이터에는 보유하고 있는 정보에 대해 적절히 정의된 스키마가 있습니다. 매우 간단히 정의하면 구글 스프레드시트 또는 마이크로소프트 엑셀과 같은 스프레드시트 프로그램에 표시할 수 있는 모든 데이터는 정형 데이터입니다.
이 예에서 데이터는 행과 열로 표시될 수 있습니다. 각 열은 다른 속성을 나타내는 반면 각 행에는 단일 인스턴스의 속성과 연결된 데이터가 있습니다. 행과 열은 쉽게 참조할 수 있는 테이블을 형성합니다.
서로 다른 테이블들은 연결될 수 있습니다. 즉, 두 테이블에 있는 공통 열로 관련되어 있다고 말할 수 있습니다.
여러 테이블이 연속적으로 연결되어 있으면 관계형 데이터베이스가 생성됩니다. 예를 들어, 백화점의 고객, 판매 및 재고 데이터는 관계형 데이터베이스로 저장된 정형 데이터로 간주할 수 있습니다.
이와 같은 정형 데이터는 일반적으로 RDBMS(관계형 데이터베이스 관리 시스템)에 저장됩니다. 데이터베이스는 1970년대에 IBM이 메인프레임 데이터베이스를 지원하기 위해 개발한 언어인 SQL 사용하여 작성, 읽기 및 조작할 수 있습니다. (처음에는 Sequence English Query Language 또는 SEQUEL로 알려진 바 있습니다.) SEQUEL의 발음이 SQL과 거의 흡사하다고 해서 붙여진 이름입니다. 현재 형태의 SQL은 Relational Software, Inc.(오늘날 Oracle)에 의해 대중화되었습니다.
정형 데이터가 아닌 모든 데이터는 비정형 데이터로 분류될 수 있습니다. 2025년까지 우리가 접하는 데이터의 80%가 텍스트, 오디오, 이미지 또는 동영상 형태의 비정형 데이터가 될 것으로 예상됩니다1.
간단히 말해 비정형 데이터가 현대적 데이터라 할 수 있습니다. 비정형 데이터는 보통 다음과 같습니다.
비정형 데이터에는 구조를 가질 수 있는 일부 관련 메타데이터가 포함될 수 있습니다. 예를 들어 동영상에는 동영상 해상도, 비트 전송률, FPS(초당 프레임 수), 동영상 소유자 등의 메타데이터가 포함될 수 있습니다. 그러나 동영상 자체는 비정형 데이터입니다. 비정형 데이터와 관련된 일부 정형 메타데이터가 있는 경우 반정형 데이터라고도 합니다.
YouTube 영상의 예를 자세히 살펴보면 업로드 시간, 업로드 날짜, 조회수(일부 또는 전체), 좋아요 및 싫어요 수 등과 같은 일부 메타데이터가 있습니다. 그러나 영상 제목, 설명 및 영상 자체의 내용은 비정형입니다. 순전히 숫자로 포착할 수 없는 질적인 측면도 있습니다.
비정형 데이터에 가장 일반적으로 사용되는 데이터베이스는 NoSQL입니다. NoSQL은 "not only SQL"의 약자로, 데이터베이스가 SQL 데이터베이스의 기능을 넘어 더 넓은 범위의 데이터를 처리할 수 있음을 나타냅니다. NoSQL 데이터베이스에는 스키마나 테이블 구조가 없습니다. 함께 그룹화된 데이터 모음일 뿐입니다.
이처럼 비정형 데이터는 엄청난 혁신의 잠재력을 지닌 중요한 인사이트를 제공할 수 있지만 이를 위해서 해결해야 하는 도전 과제들도 많습니다. 퓨어스토리지의 고성능 UFFO 스토리지 솔루션인 플래시블레이드(FlashBlade®)는 플래시 스토리지의 속도는 물론 모든 아키텍처를 민첩하게 확장할 수 있는 기능을 제공합니다. 자세히 알아보고 싶으신가요? 퓨어스토리지는 약정 없이 플래시블레이드(FlashBlade)를 테스트할 수 있는 무료 평가판을 제공하고 있습니다.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
퓨어스토리지 제품이나 인증 관련 질문이나 코멘트가 있으신가요? 저희가 도와드립니다.
라이브 데모를 예약하고 퓨어스토리지가 데이터를 어떻게 강력한 결과로 전환해주는지 직접 확인해 보세요.