Study/Article

[ATC] 24/12/10

기븜 2024. 12. 10. 10:14
오늘의 아티클 URL https://yozm.wishket.com/magazine/detail/1070/
 

양질의 데이터를 판별하는 5가지 방법 : 1 데이터 양은 충분한가? | 요즘IT

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로

yozm.wishket.com

주제

양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가?

 

요약 및 주요 포인트
  • 양질의 데이터란?
    • 데이터 품질 저품질 데이터라도 꼭 필요한 데이터라면 가공 보완 활용 가능
      데이터 수집 분석 요구 능력? 양질의 데이터를 판별할 수 있는 것
    • 양질의 데이터 판단 방법 판단 기준을 모두 지켜야지만 양질의 데이터가 아님
  • 데이터 충분한지?
    • 데이터 양의 중요성: 표본의 신뢰성을 위해 다다익선
    • 충분항 양의 기준: 최소는 있지만 최대는 데이터 분석 목적과 방법에 따라 다름

→ 분석 결과 신뢰도를 위해 많은 데이터 양 확보 필요

 

핵심개념

 

 

용어정리

딥러닝:

1) 머신러닝 방법 중 하나

2) 사물 또는 데이터 군집화하거나 분류하는데 사용하는 기술 (분류를 통한 예측)

3) 인공 신경망으로서 예시 데이터에서 얻은 일반적인 규칙을 독립적으로 훈련

머신러닝: 인공지능분야. 데이터, 경험 기반 학습 시스템 기술

웹크롤링: 인터넷에 있는 정보를 자동으로 수집하고 색인을 만드는 기술

통계적 유의미성:
1) 데이터 분석 결과를 통계적으로 신뢰할 수 있는지에 대한 지표

2) 결과가 우연히 벌어질 수 있는 변동성 바깥에 존재한다면 우리는 이것을 통계적으로 유의하다고 말한다

기타(공통 인사이트, 의미있었던 의견, 실무 적용사례)

간단한 내용의 아티클이라도 실제 면접에서 용어 정의 질문이 들어온다면 막힘없이 대답할 수 있는가?