대전과학기술정보서비스

search

로그인

R&D 정보

과제 상세정보

(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용

작성자

관리자

조회수

299

등록일

2024-05-21

사업 정보

내역사업	기반SW연구

과제 기본정보

과제명	(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용
과제고유번호	1711116801
부처명	과학기술정보통신부
시행계획 내 사업명
시행계획 내 사업유형		예산출처지역	대전광역시	사업수행지역	대전광역시
계속/신규 과제구분	신규과제
과제수행연도	2020	총연구기간	2020-04-01 ~ 2027-12-31	당해연도 연구기간	2020-04-01 ~ 2020-12-31

요약 정보

연구목표	[최종 목표] - 사전수집 데이터에 기반한 배치 강화학습(batch reinforcement learning) 기법을 연구하고, 이를 자연어처리(natural language processing)를 포함한 다양한 산업 응용 분야에 적용하는 핵심 원천 기술을 개발함[핵심 세부 목표] 1) 데이터 효율적(data-efficient)이고 안전한(safe) 배치 ...
연구내용	● 사전수집한 데이터는 데이터 수집 정책(behavior policy)의 편향으로 정보가 희박한 영역이 필연적으로 존재함. 만약 정보가 희박한 영역을 낙관적(overly optimistic)으로 평가하여 강화학습을 수행한다면 심각한 성능 하락을 보이거나 최악의 경우 사람의 생명과 재산에 치명적인 결과를 초래할 수 있음.● 강화학습 기술의 안전성을 담보하기 ...
기대효과	- 한정된 사전수집 데이터로 의사결정 에이전트 학습이 가능하며, 활용 가능한 데이터가 한정된 상황에서 의사결정 에이전트의 성능치를 어느 정도까지 달성할 수 있는지(upper-bound)에 대한 이론적/기술적 토대 및 시각 제시.- 배치 강화학습 알고리즘 개발로, 기존 강화학습 알고리즘이 학습 시 요구하는 데이터의 양 및 비용을 크게 낮출 수 있을 것으로 기...
키워드	데이터 효율성,데이터기반 학습기법,배치 강화학습,배치 모방학습,자연어 처리

위탁/공동여부 정보

단독연구	기업	대학	국공립(연)/출연(연)	외국연구기관	기타

기술 정보

연구개발단계	응용연구	산업기술분류
미래유망신기술(6T)	IT(정보기술)	기술수명주기
연구수행주체	학	과학기술표준분류	인공물 > 정보/통신 > 정보이론 > 인공지능
주력산업분류		적용분야	지식의 진보(비목적연구)
중점과학기술분류		과제유형

과제수행기관(업) 정보

과제수행기관(업) 정보	과제수행기관(업)명	한국과학기술원	사업자등록번호
연구책임자	소속기관명	한국과학기술원	사업자등록번호
연구책임자	최종학위	박사	최종학력전공	공학

사업비

국비	214,000,000	지방비(현금+현물)	0
비고

사업 정보

내역사업	기반SW연구

과제 기본정보

과제명	(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용
과제고유번호	1711116801
부처명	과학기술정보통신부
시행계획 내 사업명
시행계획 내 사업유형
예산출처지역	대전광역시
사업수행지역	대전광역시
계속/신규 과제구분	신규과제
과제수행연도	2020
총연구기간	2020-04-01 ~ 2027-12-31
당해연도 연구기간	2020-04-01 ~ 2020-12-31

요약 정보

연구목표	[최종 목표] - 사전수집 데이터에 기반한 배치 강화학습(batch reinforcement learning) 기법을 연구하고, 이를 자연어처리(natural language processing)를 포함한 다양한 산업 응용 분야에 적용하는 핵심 원천 기술을 개발함[핵심 세부 목표] 1) 데이터 효율적(data-efficient)이고 안전한(safe) 배치 ...
연구내용	● 사전수집한 데이터는 데이터 수집 정책(behavior policy)의 편향으로 정보가 희박한 영역이 필연적으로 존재함. 만약 정보가 희박한 영역을 낙관적(overly optimistic)으로 평가하여 강화학습을 수행한다면 심각한 성능 하락을 보이거나 최악의 경우 사람의 생명과 재산에 치명적인 결과를 초래할 수 있음.● 강화학습 기술의 안전성을 담보하기 ...
기대효과	- 한정된 사전수집 데이터로 의사결정 에이전트 학습이 가능하며, 활용 가능한 데이터가 한정된 상황에서 의사결정 에이전트의 성능치를 어느 정도까지 달성할 수 있는지(upper-bound)에 대한 이론적/기술적 토대 및 시각 제시.- 배치 강화학습 알고리즘 개발로, 기존 강화학습 알고리즘이 학습 시 요구하는 데이터의 양 및 비용을 크게 낮출 수 있을 것으로 기...
키워드	데이터 효율성,데이터기반 학습기법,배치 강화학습,배치 모방학습,자연어 처리

위탁/공동여부 정보

단독연구	기업	대학	국공립(연)/출연(연)	외국연구기관	기타

기술 정보

연구개발단계	응용연구
산업기술분류
미래유망신기술(6T)	IT(정보기술)
기술수명주기
연구수행주체	학
과학기술표준분류	인공물 > 정보/통신 > 정보이론 > 인공지능
주력산업분류
적용분야	지식의 진보(비목적연구)
중점과학기술분류
과제유형

과제수행기관(업) 정보

과제수행기관(업) 정보
과제수행기관(업)명	한국과학기술원
사업자등록번호
연구책임자
소속기관명	한국과학기술원
사업자등록번호
최종학위	박사
최종학력전공	공학

사업비

국비	214,000,000
지방비(현금+현물)	0
비고