R&D 정보

과제 상세정보

목록

(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용

작성자

관리자

조회수

96

등록일

2024-05-22

사업 정보
내역사업 SW스타랩
과제 기본정보
과제명 (SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용
과제고유번호 1711126442
부처명 과학기술정보통신부
시행계획 내 사업명
시행계획 내 사업유형 예산출처지역 대전광역시 사업수행지역 대전광역시
계속/신규 과제구분 신규과제
과제수행연도 2021 총연구기간 2020-04-01 ~ 2027-12-31 당해연도 연구기간 2021-01-01 ~ 2021-12-31
요약 정보
연구목표 [최종 목표] - 사전수집 데이터에 기반한 배치 강화학습(batch reinforcement learning) 기법을 연구하고, 이를 자연어처리(natural language processing)를 포함한 다양한 산업 응용 분야에 적용하는 핵심 원천 기술을 개발함[핵심 세부 목표] 1) 데이터 효율적(data-efficient)이고 안전한(safe) 배치 ...
연구내용 ● 과적합 방지(mitigate overfitting): 배치데이터로 강화학습 에이전트를 학습시 훈련 과정에서 추정 오차(bias)가 계속 축적되어 과도하게 낙관적인 정책이 학습될 수 있음. 이는 감독학습(supervised learning)에서의 훈련 과적합 현상과 밀접한 관계를 수립할 수 있다고 보고, 감독학습의 주요 과적합 방지 기법들을 배치 강화학습...
기대효과 - 한정된 사전수집 데이터로 의사결정 에이전트 학습이 가능하며, 활용 가능한 데이터가 한정된 상황에서 의사결정 에이전트의 성능치를 어느 정도까지 달성할 수 있는지(upper-bound)에 대한 이론적/기술적 토대 및 시각 제시.- 배치 강화학습 알고리즘 개발로, 기존 강화학습 알고리즘이 학습 시 요구하는 데이터의 양 및 비용을 크게 낮출 수 있을 것으로 기...
키워드 데이터 효율성,데이터기반 학습기법,배치 강화학습,배치 모방학습,자연어 처리
위탁/공동여부 정보
단독연구 기업 대학 국공립(연)/출연(연) 외국연구기관 기타
기술 정보
연구개발단계 응용연구 산업기술분류
미래유망신기술(6T) IT(정보기술) 기술수명주기
연구수행주체 과학기술표준분류 인공물 > 정보/통신 > 정보이론 > 인공지능
주력산업분류 적용분야 지식의 진보(비목적연구)
중점과학기술분류 과제유형
과제수행기관(업) 정보
과제수행기관(업) 정보 과제수행기관(업)명 한국과학기술원 사업자등록번호
연구책임자 소속기관명 한국과학기술원 사업자등록번호
최종학위 박사 최종학력전공 공학
사업비
국비 300,000,000 지방비(현금+현물) 0
비고