인공 지능 아이콘

인공 지능

다국어 텍스트 및 미디어 주석

AI 시스템은 정보 처리에 성공할 때마다 시너지 효과를 통해 테스트, 측정, 학습을 수행하므로 더욱 스마트해집니다. 회사 발전 과정에서도 동일한 패턴을 볼 수 있으며, 이것이 바로 우리가 머신러닝과 데이터 과학에 대한 놀라운 열정을 가지고 있는 이유입니다.

텍스트 및 미디어 주석 세부 정보 바로 가기

text-ico
텍스트
카메라
이미지
비디오캠
비디오

텍스트 및 미디어 주석

머신러닝 및 데이터 분석 엔지니어링의 하위 집합

소개

텍스트 및 미디어 주석 또는 데이터 라벨링은 텍스트, 비디오, 이미지 등 학습 데이터의 개별 요소에 라벨을 지정하여 기계가 해당 데이터의 내용을 정확히 이해할 수 있도록 돕는 프로세스입니다. 이렇게 주석이 달린 데이터는 모델 학습 중에 적용됩니다.

주석이 달린 데이터는 지도 학습 모델의 성능과 정확도가 주석이 달린 데이터의 품질과 양에 따라 달라지기 때문에 지도 학습 모델의 생명선이라고 할 수 있습니다. 주석이 달린 데이터가 중요한 이유는 다음과 같습니다.

  • 머신 러닝 모델에는 다양한 중요 애플리케이션이 있습니다.
  • 고품질의 주석이 달린 데이터를 찾는 것은 머신러닝 모델 구축의 주요 과제 중 하나입니다.

세부 정보에 주석 달기

텍스트 주석

텍스트 주석은 클라이언트 요구 사항에 따라 다양한 기준에 따라 소스 콘텐츠에 주석을 추가하는 기능입니다. 텍스트 주석은 감정, 의도, 의미, 개체 또는 관계와 같은 다양한 요소로 광범위하게 구성됩니다.

감정

감정 주석은 텍스트를 긍정, 부정 또는 중립으로 레이블을 지정하여 텍스트 내에서 감정과 어조를 발견합니다.

의도

텍스트 뒤에 숨은 의도를 파악하여 명령, 요청, 확인 등의 카테고리로 분류하는 의도 주석입니다.

시맨틱

사람, 장소 또는 주제와 같은 개념 및 개체를 참조하는 텍스트에 의미론적 주석을 태그합니다.

관계

관계 주석은 콘텐츠의 여러 부분 간의 관계에 태그를 지정합니다. 작업에는 종속성 및 핵심 참조 해결이 포함됩니다.

대부분의 조직은 텍스트 데이터에 라벨을 달기 위해 사람으로 구성된 주석 작성자를 찾습니다. 감정 데이터는 미묘한 차이가 있을 수 있고 속어 및 기타 언어 사용의 최신 트렌드에 따라 달라질 수 있기 때문에 인간 주석가는 감정 데이터를 분석하는 데 특히 유용합니다. 소스와 관련하여 REEID GCE는 정형 및 비정형 콘텐츠는 물론 OCR이 적용되는 소스 파일도 모두 허용합니다.

산업별 예시

의료 서비스

텍스트 데이터 주석은 의료 산업에서 중요한 역할을 하며, 특히 오늘날 환자 기록 관리, 의료 의료 챗봇 등과 같은 의료 영역의 AI 기반 서비스를 다룰 때 더욱 그렇습니다.
이 경우 환자의 생명과 관련된 문제이므로 데이터의 부정확성을 감수할 수 없습니다.

다음은 텍스트 주석이 중요한 역할을 하는 몇 가지 사용 사례입니다:

혈압 수치, 헤모글로빈 등의 수치 데이터와 같은 의료 보고서에서 세부 정보를 추출하기 위한 엔티티 주석입니다.

  • 의사가 제공한 처방전에 약품, 복용량, 복용 시간 등을 주석으로 추가할 수 있는 엔티티 주석입니다.
  • 연구 및 학습 목적의 의도 주석 및 언어학 주석으로 문맥의 세부 사항과 요점을 주석 처리하여 방대한 양의 콘텐츠를 쉽게 살펴볼 수 있습니다.
  • 병원, 실험실 또는 헬스케어 애플리케이션에서 피드백 목적으로 감정 주석을 사용할 수 있습니다.
  • 의료 애플리케이션과 챗봇의 고객 서비스를 위한 인텐트 어노테이션, 언어학 어노테이션, 시맨틱 어노테이션을 제공합니다.

물류

물류 및 공급망 산업은 빠른 속도로 확장되고 있으며, 이에 따른 기술 활용도 증가하고 있습니다. 청구서 및 송장 라벨링부터 가상 비서까지, 매일 대량의 데이터가 생성됩니다.

고객 관리 가상 도우미는 사용자 메시지에서 특정 개체를 식별하여 의도를 감지합니다.

고객이 요금 문의를 위해 다가오면 가상 어시스턴트가 몇 가지 질문을 하고 즉시 대략적인 요금을 알려줍니다. 응답에서 엔티티와 유용한 정보를 추출하여 추가 처리한 후 요금을 제공합니다.

물류의 데이터 주석도 다음과 같이 사용됩니다:

  • 청구서 및 송장의 이름, 금액, 주문 번호, 품목 등에 주석을 달 수 있는 엔티티 주석입니다.
  • 고객 피드백을 위한 감정 및 엔티티 주석.

뱅킹

오늘날 우리는 은행에서 제공하는 거래 및 기타 서비스를 위해 애플리케이션 및 웹사이트와 상호 작용하는 온라인 뱅킹을 사용하기 때문에 뱅킹의 사용 사례는 매우 광범위합니다.
은행 업무에서 데이터 라벨링의 몇 가지 사용 사례는 다음과 같습니다:

  • 텍스트 분류를 통한 고객 이탈 예측
  • 고객 서비스 및 챗봇에는 의도, 감정 및 언어 주석이 사용됩니다.
  • – 엔티티 주석은 다양한 유형의 양식에서 이름, 금액, 은행 계좌 번호 등과 같은 엔티티를 추출하는 데 활용됩니다.

정부

정부 부문에서의 주석 사용은 은행과 비슷하지만 그 범위가 더 넓습니다. 정부 부문에는 교육부, 연구, 식품 및 의약품, 법률, 세무 부서, 미디어 등이 포함됩니다.

이 도메인에서 어노테이션을 사용하면 캡슐화됩니다:

  • 위에서 설명한 모든 부문의 고객 서비스, 챗봇 및 가상 비서에 대한 의도, 엔티티 및 언어 주석입니다.
  • 사건의 내용에 따라 형사, 민사 등의 법률 사건을 분류하기 위한 텍스트 분류입니다.
  • 범죄자의 어조, 의미 등을 감지할 수 있는 경찰 및 범죄 분야용 언어 주석과 다양한 사건 및 보고서.
  • 이름, 부서, 위치, 핵심 문구 등 모든 정부 문서에 주석을 다는 엔티티 주석입니다.

미디어 및 뉴스

미디어 및 뉴스는 텍스트 콘텐츠가 많은 분야로, 주석이 콘텐츠를 이해하는 데 널리 사용될 수 있는 또 다른 분야입니다.

미디어 및 뉴스의 데이터 주석은 다음과 같은 사용 사례에 사용됩니다:

  • 다양한 문서에서 이름, 위치, 핵심 문구, 숫자 등 다양한 엔티티에 주석을 달 수 있는 엔티티 주석입니다.
  • 스포츠, 교육, 정부, 국내, 국제, 엔터테인먼트 등과 같은 뉴스의 다양한 레이블로 콘텐츠를 분류하는 텍스트 분류입니다.
  • 언어 주석 및 의미 주석은 기사 및 뉴스 리포트의 음성학, 의미론, 담론에 대한 주석을 제공합니다.
  • 위에서 언급한 사용 사례 외에도 연구, 교육, 엔터테인먼트, 전자상거래, 멀티미디어 등과 같은 다양한 하위 도메인이 있습니다.

이미지 주석

이미지 어노테이션은 이미지의 섹터에 라벨을 지정하여 AI 또는 ML 모델을 학습시키는 프로세스입니다. 예를 들어, 머신 러닝 모델은 태그가 지정된 디지털 사진에 대해 사람처럼 높은 수준의 이해력을 갖추게 되어 보이는 이미지를 이해할 수 있습니다. 사용 사례에 따라 이미지의 레이블 수는 달라질 수 있습니다. 아래에 설명된 몇 가지 기본적인 이미지 주석 유형이 있습니다.

이미지 분류

처음에는 주석이 달린 이미지로 머신을 학습시킨 다음, 미리 정의된 주석이 달린 이미지로 이미지에 표시할 내용을 결정합니다.

물체 인식/감지

이미지 분류의 또 다른 형태입니다. 이미지에서 엔티티의 숫자와 특정 위치의 정확한 특성화입니다. 이미지 분류에서는 전체 이미지에 라벨이 할당되지만, 객체 인식에서는 개체에 개별적으로 라벨을 지정합니다. 예를 들어 이미지 분류를 사용하면 이미지가 해변 또는 숲으로 분류됩니다. 객체 인식은 사람, 동물, 자동차 등 이미지에 있는 다양한 개체에 개별적으로 태그를 지정합니다.

세분화

이미지 주석의 고급 형태입니다. 이미지를 더 쉽게 해석하기 위해 이미지를 여러 섹션으로 나누고 이러한 부분을 이미지 객체라고 합니다. 이미지 세분화에는 세 가지 유형이 있습니다:

  • 의미론적 세분화: 크기와 위치와 같은 속성에 따라 이미지에서 유사한 개체에 레이블을 지정합니다.
  • 인스턴스 세분화: 이미지의 각 엔티티에 레이블을 지정할 수 있습니다. 위치 및 번호와 같은 엔티티의 속성을 정의합니다.
  • 파놉틱 세분화: 시맨틱 세그먼트와 인스턴스 세그먼트를 모두 결합하여 사용합니다.

동영상 주석

동영상 주석은 동영상 클립에 태그를 지정하거나 레이블을 지정하는 프로세스입니다. 이는 머신러닝(ML) 및 딥러닝(DL) 모델 학습을 위한 데이터셋으로 준비하기 위해 수행됩니다. 따라서 이러한 숙련된 신경망은 자동 비디오 분류 도구와 같은 컴퓨터 비전 애플리케이션에 사용됩니다. 프레임 단위로 비디오에서 객체를 정확하게 감지하고 분류하는 데 도움이 됩니다. 컴퓨터 비전 비디오 주석을 통한 객체 인식은 이미지 주석과 유사하며, 바운딩 박스, 시맨틱 분할, 폴리라인 등을 사용할 수 있습니다. 동영상 주석과 관련된 작업은 동영상에서 움직이는 객체를 감지하고 프레임 간 객체 윤곽선 내에서 객체를 식별할 수 있도록 만들어 AI 모델을 학습시키는 것이라는 사실을 알고 계실 것입니다.

동영상 주석의 유형

동영상 주석 기술의 유형을 알아야 합니다. 이를 통해 주석 요구 사항을 이해할 수 있습니다.

2D 마킹
이 유형의 동영상 주석은 상자를 사용하여 동영상에서 개체를 표시하는 데 사용됩니다. 주석 작성자는 객체의 둘레에 상자를 그립니다.

3D 마킹
이 방법은 3D 상자를 사용하여 객체에 라벨을 지정함으로써 AI 모델이 객체의 모든 3차원과 주변 객체와의 시너지를 정확하게 측정할 수 있도록 합니다.

다각형 라벨링
대상물의 모양이 불규칙한 경우 다각형 라벨링이 가장 정확한 방법이 될 수 있습니다.

랜드마크 / 키포인트
키포인트 라벨링은 개체에 포인트를 추가할 때 릴레이로 표시됩니다. 이는 얼굴 표정, 신체 부위, 차량, 악기 및 기타 움직이는 골격 물체의 움직임을 캡처하는 데 효과적입니다.

선 및 스플라인: 선과 스플라인의 주요 목적 중 하나는 자율 주행 차량 시스템에서 널리 사용되는 영역의 차선과 경계를 결정하는 것입니다.

데이터 보안 조치

당사는 사용자의 데이터와 리소스의 보안을 최우선시하여 매우 성실하게 관리합니다. 권한이 없는 개인과 자동화된 시스템으로부터 특정 문서와 정보를 보호해야 할 필요성을 인식하고 사업부 전반에 걸쳐 엄격한 안전 관리와 방법론을 구현했습니다:

  1. 당사는 민감한 데이터에 클라우드 기반 스토리지 서비스(구글, 드롭박스 등)를 사용하지 않습니다(고객이 별도로 지정하지 않는 한).
  2. 당사는 고객이 별도로 지정하지 않는 한 외주 SMT(통계적 기계 번역 엔진)를 사용하지 않습니다.
  3. 당사는 고객이 달리 명시하지 않는 한 클라우드 기반 타사 엔진을 사용하여 머신러닝 시스템을 구축, 교육 및 배포하고 데이터 세트를 처리하지 않습니다.
  4. 외부 통신에는 보안 전송 프로토콜만 사용하고 있습니다.
  5. 로컬 저장소 및 분산형 DMS 내의 강력한 파일 암호화
  6. 온라인 플랫폼에 대한 강력한 액세스 권한(프로필, 역할, 공유 규칙)
  7. 데이터베이스 레코드 수준에서 액세스 제어
  8. 민감한 데이터에 대한 모든 액세스를 위한 MFA 인증
  9. 데이터 파기 및 폐기 절차 마련
  10. 침입 방지 시스템
  11. 다계층 데이터 손실 방지(DLP) 시스템 및 절차 구축
  12. 데이터 익명화 절차(프로젝트 아웃소싱 시 중요)
  13. 정기 보안 및 기밀성 감사
  14. 유럽 및 아시아의 데이터 센터(데이터 보안 요구 사항에 따라 특정 DC가 선택됨)
  15. 완벽한 GDPR 준수
  16. 유로존 외 국가의 규정에 따른 데이터 보호 규정 준수
위로 스크롤