[첨단 헬로티]
데이터 사이언스 팀과 개별 데이터 과학자들을 위한 설계
오라클이 기업의 데이터 사이언스 활용을 지원하는 오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform)을 출시했다. 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science)가 핵심 솔루션으로, 기업 내 협력 기반의 머신러닝 모델 개발과 교육, 관리 및 구축을 통해 데이터 사이언스의 성공적 수행을 돕는다.
개별 데이터 과학자(Data Scientist)에 중점을 두는 다른 솔루션과는 달리, 오라클 클라우드 인프라스트럭처 데이터 사이언스는 기업 내 공유 프로젝트와 모델 카탈로그, 팀 보안정책, 재현성 및 감사성(auditability) 등 데이터 사이언스 조직이 다루는 주요 기능에 집중하는 것이 특징이다. 또한 자동 머신러닝(AutoML) 알고리즘 선택과 튜닝, 모델 평가 및 모델 설명기능을 통해 최적의 데이터세트틀 자동으로 선택해준다.
오늘날 기업은 비즈니스 혁신을 도모할 수 있는 거대한 양의 잠재적 데이터를 보유하고 있음에도 극히 그 일부만 이를 파악하거나 활용하고 있다. 이는 기업 내 데이터 사이언스 조직이 올바른 데이터에 접근하여 머신러닝 모델을 효과적으로 개발하고 구축할 수 있는 도구가 없었기 때문으로 분석된다. 그 결과, 이러한 모델 개발에 장시간이 소요됨은 물론, 정확도와 안정성의 요건을 충족하지 못해 실제 업무 환경에까지 적용하지 못하는 경우가 대다수였다.
그렉 파블릭(Greg Pavlik) 오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장은 “성공적인 데이터 사이언스 프로젝트 수행을 위해서는 효과적인 머신러닝 모델이 그 기반임에도, 다양하고 방대한 양의 데이터가 그 동안 기업들의 발목을 잡아왔다.”고 말하며, “이번 오라클 클라우드 인프라스트럭처 데이터 사이언스 출시를 통해 개별 데이터 과학자의 전체 업무를 자동화하여 개인 생산성을 증대할 뿐만 아니라 관련 팀 간의 강력한 협력을 지원함으로써 데이터 사이언스 프로젝트가 실질적인 기업의 비즈니스 가치로 직결될 수 있도록 지원할 수 있게 되었다”며 이번 출시의 의미를 밝혔다.
오라클 클라우드 인프라스트럭처 데이터 사이언스는 다음과 같은 기능을 통해 데이터 사이언스 워크플로우 자동화와 시간 절약 및 오류 최소화 등의 효과를 구현한다.
• AutoML 자동화 알고리즘 선택 및 튜닝: 복수 알고리즘 및 하이퍼파라미터 (hyperparameter) 구성을 위한 테스트 진행 프로세스를 자동화한다. 정확도 결과를 체크하고 사용을 위해 선택된 최적 모델과 구성을 확정한다. 데이터 과학자들의 작업 시간을 대폭 절감하고, 모든 데이터 과학자들이 가장 숙련된 실행전문가의 수준과 동일한 결과를 달성할 수 있도록 설계되었다.
•자동화된 예측형 특징(predictive feature) 선택: 방대한 양의 데이터세트로부터 자동적으로 주요 예측형 특징들을 식별함으로써 데이터에 대한 도메인 지식을 활용해 특징을 만들어내는 과정을 단순화한다.
•모델 평가: 새로운 데이터에 대해 모델이 얼마나 좋은 성능을 보일지 평가하기 위한 종합적인 평가 매트릭스와 시각화 기능들을 포함한다. 시간에 따라 실제 데이터 활용을 위해 가장 최적의 모델에 순위를 매기는 것 또한 가능하다. 모델 평가는 기초 성능을 넘어, 예측할 수 있는 기본 행동을 고려하고 비용 모델을 활용해 결과도출에 있어 거짓 양성(false positives)과 거짓 음성(false negatives)의 다양한 영향들이 서로 통합될 수 있도록 한다.
• 모델 설명: 오라클 클라우드 인프라스트럭처 데이터 사이언스에는 예측결과를 도출하는데 있어 상대적인 가중치와 관련 평가 요소들의 중요성을 설명해 주는 기능이 자동화되어 있다. 이는 머신러닝 모델 알고리즘 설명 기능이 상업적으로 적용된 최초의 사례다. 예를 들어 데이터 과학자가 탑재된 범죄 방지 모델을 활용하면 이러한 범죄를 유발하는 요인들에 대해 설명할 수 있게 된다. 이를 기반으로 필요한 비즈니스 과정을 수정해 나가거나 보호장치 또한 적용할 수 있다.
효과적인 머신러닝 모델을 실제 생산환경에 성공적으로 도입하기 위해서는 단순히 전담 요원들의 배치보다는, 함께 협업할 수 있는 팀 단위의 데이터 과학자들이 필요하다. 이러한 팀 역량을 지원하기 위한 오라클 클라우드 인프라스트럭처 데이터 사이언스의 관련 기능들은 다음과 같다:
• 프로젝트 공유 기능: 사용자가 데이터 및 노트북 작업을 포함한 팀의 업무를 보다 안정적으로 구성 및 공유하고, 문서, 프로그램, 웹 페이지 등 특정 형태의 정보 집합이나 관련 변화를 기록하고 관리하는 버전 컨트롤(version control) 업무를 가능케 한다.
• 모델 카탈로그: 팀원들이 이미 설계된 모델들과 부산물로 생성된 여러 아티팩트들(artifacts)을 안정적으로 공유하고 이들을 수정 및 활용하도록 한다.
• 팀 기반의 보안 정책: 오라클 클라우드 인프라스트럭처 아이덴티티 및 엑세스 관리 (Oracle Cloud Infrastructure Identity and Access Management) 솔루션과 완벽히 통합됨으로써 사용자가 모델, 코드 및 데이터에 접근하는 것을 보다 효과적으로 관리할 수 있다.
•재생산성과 감사성: 기업이 관련한 모든 자산을 추척해 팀원들의 부재시에도 모든 머신러닝 모델들이 재생산되고 심사될 수 있도록 한다.
기업들은 오라클 클라우드 인프라스트럭처 데이터 사이언스 솔루션을 통해 성공적인 머신러닝 모델 구축을 가속화하고, 긍정적인 비즈니스 결과를 도출하기 위한 예측 분석성능과 대기업 수준의 결과를 창출할 수 있다.