| 연구목표 |
[연구배경]* DBMS에 저장된 빅데이터는 대체로 딥러닝 SW에서 바로 사용할 수 없음. 데이터 추출, 수정 등의 데이터 준비에 전체 80% 이상의 시간이 소요되나 현재 DBMS에서 이러한 기능을 지원하지 않음 = 고사용성 필요 * 페타바이트 수준의 빅데이터는 여러 대의 노드에 분산 저장되어 있음. 이를 위한 분산 DBMS 딥러닝은 아직 초기 단계에 머물러... |
| 연구내용 |
* 주어진 빅데이터에서 부정확한 레이블로 표기된 데이터를 탐색하기 위한 레이블 불확실도(label uncertainty) 추정 기술을 개발함* 측정된 레이블 불확실도를 바탕으로 레이블이 확실한 데이터 표본들을 전체 데이터로부터 추출하는 표본 선택(sample selection) 기술을 개발함* 레이블이 불확실한 데이터도 올바르게 정정할 수 있는 레이블 수정... |
| 기대효과 |
* 인하우스 데이터는 충분히 보유하고 있으나 딥러닝 활용능력이 미흡한 국내 기업과 연구소의 진입 장벽을 해소할 수 있음* 딥러닝 기반 서비스 개발의 최소 80%를 차지하는 데이터 준비(가공) 비용과 기간을 획기적으로 줄임 * 고사용성으로 인해 5천억 원 규모의 현 국내 DBMS 시장에서 연간 10억~15억 원의 유지보수비용을 절감함* 국내 DBMS 라이선스... |
| 키워드 |
데이터 준비,딥러닝,분산 DBMS,분산 처리,빅데이터 |