본문 바로가기
IT컴퓨터

[한빛미디어 리뷰어][2023년 5월] 데이터 품질의 비밀

by 밥보다책 2023. 6. 5.

 

목차

1. 시작

2. 책의 내용

3. 책을 읽은 후

1. 시작

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

2023년 5월달에 소개할 책은 「데이터 품질의 비밀」입니다

 


<표지>

 

인공지능, ChatGPT가 대세인 시대를 살고 있습니다.

온통 인공지능에 대한 뉴스가 가득하고, 하루가 멀다하고 새로운 기술이 나오고 있습니다.

ChatGPT의 GPT-3 초거대 AI 모델을 학습 시키기 위해 사용된 데이터 용량은 753GB라고 합니다. 

현재 GPT-4는 얼마나 큰 데이터를 가지고 학습을 시켰을까요?

인공지능에서의 데이터는 꼭 필요한 존재입니다.

인공지능은 GIGO(Garbage In Garbage Out)이라고도 합니다.

쓰레기 데이터를 넣으면 쓰레기 인공지능 모델이 만들어진다는 이야기입니다.

 

현재 인공지능 데이터 품질 표준을 제정하고 있습니다.

아마 2023년에 출시가 되지 않을까 생각을 합니다.

 

인공지능의 신뢰성을 제시하기 위해서는 데이터 품질의 신뢰성이 보장되어야 합니다.

데이터의 품질이 점점 더 중요해지는 시기입니다.

 

이런 때에 데이터 품질에 대한 유일한 책이 아닐까 생각을 합니다.

물론 이책은 인공지능 데이터 품질에 대한 책은 아닙니다.

비즈니스를 판단 할 때, 

회사의 방향을 돌리고, 

전략을 세울때 필요한 

데이터 기반의 의사결정에 대한
데이터 품질에 관한 책입니다.

 

데이터 신뢰를 확보하기 위해서는 체계적인 데이터 프로세스 정의·구축·실행이 필요하다고 필자는 제시하고 있습니다.

데이터는 21세기의 원유라고도 합니다.

데이터가 귀한 원유가 되기 위해서는 데이터의 신뢰성이 높아야 합니다.

 

이 책은 신뢰 할 수 있는 데이터를 얻기 위한

시스템 구축·데이터 수집· 정제· 변환· 테스트· 모니터링· 아키텍처· 문제해결· 조직· 인증· 사례 등을 다루고 있습니다.

 

2.책의 내용

 

이 책은 총 10장으로 이뤄져 있습니다.

1장 지금, 데이터 품질에 주목해야 하는 이유

2장 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

3장 데이터 수집·정제·변환·테스트

4장 데이터 파이프라인 모니터링 및 이상 탐지

5장 데이터 신뢰성을 위한 아키텍처

6장 대규모 데이터 품질 문제 해결

7장 엔드 투 엔드 데이터 계보 구축

8장 데이터 품질 민주화

9장 현실에서의 데이터 품질: 전문가 대담과 사례 연구

10장 신뢰할 수 있는 데이터 시스템의 미래 개척

입니다



데이터는 상상도 할 수 없을 정도로 증가하고 있습니다.

지금의 세상은 점점더 복잡해지고 있고,

점점 더 불확실해지고 있으며,

점점 더 복잡해지고 있으며,

점점 더 모호해지고 있습니다.

 

시장에 대한 데이터,

서비스를 통하여 생성되는 데이터,

고객의 데이터 등을 

수집·정제·변환하고 

비즈니스를 도출하고

전략을 세운다.

 

이 모든 것을 행하기 위해서

데이터 파이프라인을 구축하도록 도와준다.

 

2장에서는 데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 설명한다.

[64 페이지]

 

3장에서는 데이터 파이프라인 전반에서 데이터 품질을 관리하고 규모에 맞게 데이터를 수집·정제·변환·테스트하는 방법을 설명한다.

[84 페이지]

 

4장에서는 이상 탐지 관련 주요 기술과 함께 엔드 투 엔드 프로세스를 살펴보고, 이상 탐지의 전통적인 기능을 뛰어넘는 자체 데이터 품질 모니터를 구축하는 방법을 공유한다.

[159 페이지]

 

5장에서는 CI/CD, 경고 및 분류, 사고 관리 등 신뢰할 수 있는 데이터 워크플로를 엔지니어링하여 데이터 신뢰성을 높이는 방법을 설명한다.

[178 페이지]



6장에서는 데이터 신뢰성 워크플로의 중요한 구성 요소인 사고 관리 및 해결 방식, 대규모 데이터 품질을 다루는 엔드 투 엔드 접근 방식을 자세히 설명한다.

[224페이지]



7장에서는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다.

[255 페이지]

 

8장에서는 앞서나가는 데이터 조직이 데이터 품질 민주화를 위해 적용하는 프로세스와 기술을 알려준다.

 

9장에서는 데이터 메시와 검색 툴을 포함하여 높은 데이터 품질을 달성하는 데 가장 중요한 기술과 주제를 소개한다.

[340 페이지]

 

10장에서는 데이터 품질을 관리하고 유지할 때 필요한 노력과 리소스를 정당화하기 위한 접근법을 제공한다.

 

3. 책을 읽은 후

 

이 책은 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서 입니다.

데이터 품질에 관한 책이 흔하지가 않습니다.

 

데이터의 정확성/신뢰성/사실성을 개선하는 조직을 위한 핵심 정보를 제공하고 있습니다.

 

이책에서 얻을수 있는 내용은

-현재 데이터 품질을 주목해야 하는 이유

-데이터 품질을 위한 파이프라인 구축/모니터링시스템 구성 방법

-데이터 품질 신뢰성 높이는 방법과 실제 사례

-데이터 품질 향상 거버넌스와 실제 사례

-데이터 품질 투자 대비 효용성 계산 공식

-데이터 품질의 미래 트렌드 4가지

 

작년보다 2023년은 경제가 더욱 힘든 시기 입니다. 

정말 힘든 시기를 보내고 있는 모든 관련 업계 종사자들에게 힘내라고 응원을 보내드립니다.

 

여기서 책의 서평을 마무리 짓겠습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

감사합니다

 

댓글