‘진짜 서비스’에 쓸 AI 모델 만들기: 서비스 요구 사항과 학습 데이터셋

  • 관리자 신현승
  • 카테고리: 개발이슈
  • 조회수: 749
  • 작성일:

IT 지식의 중요성이 높아진 요즘, 여러분은 어떤 방식으로 공부하고 있나요? 다양한 IT 강의 영상이 눈에 띄는데, 요즘IT와 교육 기업들이 함께 준비한 'IT 강의 시리즈'를 소개합니다. 엄선된 교육 영상을 통해 필요한 정보를 신속하게 얻어보세요.

 

이번 강의는 ‘서비스 향 AI 모델 개발하기’입니다. AI 스타트업 업스테이지의 CTO 이활석 님이 AI 모델 개발 과정을 통해 이론이 아닌 실무를 배워보세요. 전체 영상은 네이버 부스트코스에서 확인할 수 있습니다.


안녕하세요, 이활석입니다. 현재 업스테이지에서 CTO로 일하고 있습니다.

 

오늘은 서비스 목적으로 AI를 개발하는 과정과 학습 목적의 모델 개발 차이점을 중점적으로 다루겠습니다.

 

‘진짜 서비스’를 위한 AI 모델 만들기

AI 모델 개발 기본은 학습용 데이터셋과 테스트 데이터셋이 있어야 하지만, 실제 서비스에서는 데이터셋 준비가 어려운 경우가 많습니다.

 

대신 서비스 요구 사항이 주어집니다. “어떠한 서비스를 만들고 싶은데 AI로 가능할까요?”라는 질문이 모델링 팀에 들어옵니다.

 

<출처: 부스트코스 ‘인공지능 전문가 특강' 강의 영상 캡처>

 

서비스 요구 사항에서 시작하기

서비스 기획안에 따라 AI 기술팀과 데이터셋에 대한 구체화를 시작합니다. 데이터 없이는 AI 개발이 어렵기 때문에 학습 데이터셋을 잘 준비해야 합니다.

 

<출처: 부스트코스>

 

“수학 공식을 인식하는 AI를 만들어 주세요”

AI 기술팀은 기획안에 따라 필요한 학습 데이터셋을 모으기 위해 질의응답을 통해 구체적인 요구를 확인해야 합니다.

 

<출처: 부스트코스>

 

학습 데이터셋 정의하기

기획팀과의 질문을 통해 학습 데이터셋 목적과 정보를 구체화합니다. 필요한 수식 이미지의 종류와 표현 방식을 명확히 해야 합니다.

 

어떤 경우의 수까지 대응해야 할까?

다양한 상황에 대해 서비스를 기획팀과 논의하며 대응 가능한 데이터셋의 종류를 정해야 합니다.

 

<출처: 부스트코스>

 

기술 모듈과 정답 데이터셋 설계하기

이제 데이터셋 종류와 수량을 정한 후, 이미지에서 수식 영역을 검출하는 기술 모듈을 설계합니다.

 

사용자 관점에서 자연스러운 흐름은 무엇일까?

사용자 경험을 고려하여 여러 수식을 함께 찍는 방법을 채택하다면, 수식 영역 검출 모듈 추가가 필요합니다.

 

<출처: 부스트코스>

 

어떤 데이터가 정답이 될까?

각 AI 모델의 정답을 정의하는 과정은 모델 설계와 밀접하게 연관되어 있습니다.

 

1. 수식 영역 검출 모델의 정답 데이터

수식 영역의 정의 방식에 따라 AI 모델의 구조가 달라집니다.

 

2. 레이텍 검출 모델의 정답 데이터

수식 이미지와 레이텍 문자열의 관계를 이해하고 다양한 AI 모델 조합을 사용할 수 있습니다.

 

학습 데이터셋 구체화와 AI 모델 설계, 무엇이 먼저일까?

학습 데이터셋 준비와 AI 모델 설계는 반복적으로 일어나는 과정임을 이해해야 합니다.

 

<출처: 부스트코스>

 

학습 데이터는 어떻게 만들까?

학습 데이터셋 준비 담당자는 서비스 기획자와 AI 모델 개발자와의 긴밀한 커뮤니케이션이 필요합니다.

 

외주 업체와 커뮤니케이션하기

외주 업체와의 협업 과정에서 중요한 작업 가이드 정리, 작업 단가 설정, 작업자 Q&A 대응이 필요합니다.

 

<출처: 부스트코스>

 

학습 데이터셋 준비 방법

학습 데이터셋 준비 방법을 정리하자면:

  1. 서비스 요구 사항의 명확화를 먼저 해야 합니다.
  2. 요구 사항으로부터 학습 데이터셋의 종류와 수량을 결정해야 합니다.
  3. 외주 업체에 전달할 작업 가이드를 반드시 마련해야 합니다.

 

<출처: 부스트코스>

 

마치며

서비스 목적으로 AI를 개발하는 과정과 필수 요소인 모델 설계, 학습 데이터셋 준비에 대한 접근법을 다룰 수 있었습니다. 다음 글에서는 테스트 데이터셋과 방법에 대해 다룰 예정입니다.

 

원본 강의 보러 가기 https://www.boostcourse.org/ai101

 


해당 기사는 GPT를 이용하여 요약한 내용입니다.

원문보기


코멘트 (0)