대전과학기술정보서비스

search

로그인

R&D 정보

과제 상세정보

(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용

작성자

관리자

조회수

579

등록일

2024-05-22

사업 정보

내역사업	SW스타랩

과제 기본정보

과제명	(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용
과제고유번호	1711152598
부처명	과학기술정보통신부
시행계획 내 사업명
시행계획 내 사업유형		예산출처지역	대전광역시	사업수행지역	대전광역시
계속/신규 과제구분	신규과제
과제수행연도	2022	총연구기간	2020-04-01 ~ 2027-12-31	당해연도 연구기간	2022-01-01 ~ 2022-12-31

요약 정보

연구목표	[최종 목표] - 사전수집 데이터에 기반한 배치 강화학습(batch reinforcement learning) 기법을 연구하고, 이를 자연어처리(natural language processing)를 포함한 다양한 산업 응용 분야에 적용하는 핵심 원천 기술을 개발함[핵심 세부 목표] 1) 데이터 효율적(data-efficient)이고 안전한(safe) 배치 ...
연구내용	● 하위 계층의 정책(low-level policy)은 비교적 단순한 문제를 해결하고, 상위 계층의 정책(high-level policy)은 좀 더 복잡한 문제를 해결하는데 상위 레벨의 정책은 하위 레벨의 정책과 서로 다른 시간의 간격을 두고 작동함.● 기존 계층적 강화학습 연구는 표준 강화학습 환경에 초점을 두고 연구되었으나, 본 연구진은 배치 강화학습 ...
기대효과	- 한정된 사전수집 데이터로 의사결정 에이전트 학습이 가능하며, 활용 가능한 데이터가 한정된 상황에서 의사결정 에이전트의 성능치를 어느 정도까지 달성할 수 있는지(upper-bound)에 대한 이론적/기술적 토대 및 시각 제시.- 배치 강화학습 알고리즘 개발로, 기존 강화학습 알고리즘이 학습 시 요구하는 데이터의 양 및 비용을 크게 낮출 수 있을 것으로 기...
키워드	데이터 효율성,데이터기반 학습기법,배치 강화학습,배치 모방학습,자연어 처리

위탁/공동여부 정보

단독연구	기업	대학	국공립(연)/출연(연)	외국연구기관	기타

기술 정보

연구개발단계	응용연구	산업기술분류
미래유망신기술(6T)	IT(정보기술)	기술수명주기
연구수행주체	학	과학기술표준분류	인공물 > 정보/통신 > 정보이론 > 인공지능
주력산업분류		적용분야	지식의 진보(비목적연구)
중점과학기술분류		과제유형

과제수행기관(업) 정보

과제수행기관(업) 정보	과제수행기관(업)명	한국과학기술원	사업자등록번호
연구책임자	소속기관명	한국과학기술원	사업자등록번호
연구책임자	최종학위	박사	최종학력전공	공학

사업비

국비	300,000,000	지방비(현금+현물)	0
비고

사업 정보

내역사업	SW스타랩

과제 기본정보

과제명	(SW 스타랩) 안전한 강화학습 원천 기술 개발 및 자연어 처리에의 응용
과제고유번호	1711152598
부처명	과학기술정보통신부
시행계획 내 사업명
시행계획 내 사업유형
예산출처지역	대전광역시
사업수행지역	대전광역시
계속/신규 과제구분	신규과제
과제수행연도	2022
총연구기간	2020-04-01 ~ 2027-12-31
당해연도 연구기간	2022-01-01 ~ 2022-12-31

요약 정보

연구목표	[최종 목표] - 사전수집 데이터에 기반한 배치 강화학습(batch reinforcement learning) 기법을 연구하고, 이를 자연어처리(natural language processing)를 포함한 다양한 산업 응용 분야에 적용하는 핵심 원천 기술을 개발함[핵심 세부 목표] 1) 데이터 효율적(data-efficient)이고 안전한(safe) 배치 ...
연구내용	● 하위 계층의 정책(low-level policy)은 비교적 단순한 문제를 해결하고, 상위 계층의 정책(high-level policy)은 좀 더 복잡한 문제를 해결하는데 상위 레벨의 정책은 하위 레벨의 정책과 서로 다른 시간의 간격을 두고 작동함.● 기존 계층적 강화학습 연구는 표준 강화학습 환경에 초점을 두고 연구되었으나, 본 연구진은 배치 강화학습 ...
기대효과	- 한정된 사전수집 데이터로 의사결정 에이전트 학습이 가능하며, 활용 가능한 데이터가 한정된 상황에서 의사결정 에이전트의 성능치를 어느 정도까지 달성할 수 있는지(upper-bound)에 대한 이론적/기술적 토대 및 시각 제시.- 배치 강화학습 알고리즘 개발로, 기존 강화학습 알고리즘이 학습 시 요구하는 데이터의 양 및 비용을 크게 낮출 수 있을 것으로 기...
키워드	데이터 효율성,데이터기반 학습기법,배치 강화학습,배치 모방학습,자연어 처리

위탁/공동여부 정보

단독연구	기업	대학	국공립(연)/출연(연)	외국연구기관	기타

기술 정보

연구개발단계	응용연구
산업기술분류
미래유망신기술(6T)	IT(정보기술)
기술수명주기
연구수행주체	학
과학기술표준분류	인공물 > 정보/통신 > 정보이론 > 인공지능
주력산업분류
적용분야	지식의 진보(비목적연구)
중점과학기술분류
과제유형

과제수행기관(업) 정보

과제수행기관(업) 정보
과제수행기관(업)명	한국과학기술원
사업자등록번호
연구책임자
소속기관명	한국과학기술원
사업자등록번호
최종학위	박사
최종학력전공	공학

사업비

국비	300,000,000
지방비(현금+현물)	0
비고