{METHOD AND APPRATUS FOR PRODUCING MULTIMEDIA CONTENTS BASED ON NEURAL NETWORK SIGNAL}
- Suemin YI
- 8월 7일
- 4분 분량

【명세서】
【발명의 명칭】
웨인힐스 뉴럴네트워크 신호 기반 멀티미디어 컨텐츠 생성 방법 및 장치 {METHOD AND APPRATUS FOR PRODUCING MULTIMEDIA CONTENTS BASED ON NEURAL NETWORK SIGNAL}
【기술분야】
본 개시는 멀티미디어 컨텐츠 생성 방법 및 장치에 관한 것이다. 보다 상세하게는 뇌-컴퓨터 인터페이스(Brain-Computer Interface) 신호를 이용한 멀티미디어 컨텐츠 생성 방법 및 장치에 관한 것이다.
【발명의 배경이 되는 기술】
개인화된 다양한 컨텐츠들이 제작되고 있으며, 기존 텍스트 기반 컨텐츠들에서 영상화 기반 멀티미디어 컨텐츠들이 기하 급수적으로 증가하고 있다. 다만 영상 제작, 편집 및 생성에 많은 비용이 소모되면서 이미지 또는 영상 기반 멀티미디어 컨텐츠들을 생성하기 위한 다양한 기술들이 공개되고 있다.
일 실시 예에 의하면 프롬프트 기반 멀티미디어 컨텐츠를 생성하는 기술들이 개시된 바 있고, 이러한 기술을 통해 적은 비용으로도 사용자들이 원하는 멀티미디어 컨텐츠를 제작하는 서비스가 개시된 바 있다.
수요자들이 원하는 멀티미디어 컨텐츠를 신속하고 정확하게 생성하기 위해서는 수요자 의도를 파악하기 위한 기술, 파악된 의도와 문맥에 맞는 영상을 매칭하기 위한 기술, 생성된 영상을 원하는 수요자들에 공급하기 위한 기술, 생성 영상을 편집하기 위한 편집 툴에 대한 기술 등 복합적인 기술 개발이 요구된다.
한편, 사람의 생각을 효과적으로 인식하기 위해 뇌-컴퓨터 인터페이스를 이용하여 텍스트나 이미지를 생성하기 위한 기술들이 개발되고 있다. 일반적으로 뇌-컴퓨터 인터페이스(BCI)는 시각적 자극에 의해 유도되는 신경 응답에 따른 뇌 신경 신호들을 획득하게 되는데, 일 예로 뇌전도 신호를 이용 문자, 이미지, 영상을 생성하는 연구들이 개시된 바 있다.
다만, 기존 BCI 로부터 획득되는 신호 분석의 정확도 및 시간당 정보 획득량의 한계가 있으며, 기존 BCI 들에서 획득가능한 다양한 타입의 신호들을 복합적으로 이용하여 사용자 의도를 정확하게 파악하기 위한 기술 개발이 요구되고 있다.
【선행기술문헌】
【특허문헌】
(특허문헌1) 한국등록특허 제2257371호
【발명의 내용】
【해결하고자 하는 과제】
일 실시 예에 의하면, 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
일 실시 예에 의하면, 다양한 타입의 뉴럴 네트워크 신호와 사용자의 생체 신호들에 기초하여 멀티미디어 컨텐츠를 생성하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
【과제의 해결 수단】
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시 예에 의하면, 전자 장치가 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법에 있어서, 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하는 단계; 상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하는 단계; 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하는 단계; 및 상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는 단계; 를 포함하는, 방법이 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로 또 다른 실시 예에 의하면, 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 전자 장치에 있어서, 디스플레이; 네트워크 인터페이스; 하나 이상의 인스트럭션을 저장하는 메모리; 상기 하나 이상의 인스트럭션을 수행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 상기 전자 장치와 연결된 외부 장치로부터 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하고, 상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하고, 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하고, 상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는, 전자 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로 또 다른 실시 예에 의하면, 전자 장치가 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법에 있어서, 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하는 단계; 상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하는 단계; 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하는 단계; 및 상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는 단계; 를 포함하는, 방법을 수행하도록 하는 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
【발명의 효과】
일 실시 예에 의하면, 사용자의 생각만으로 사용자 의도에 매칭되는 멀티미디어 컨텐츠를 생성할 수 있다.
일 실시 예에 의하면 뇌 신경 신호들 및 다중 생체 신호들을 복합적으로 이용하여 사용자 의도 텍스트를 효과적으로 결정할 수 있다.
일 실시 예에 의하면 제공된 멀티미디어 컨텐츠가 사용자 의도에 맞지 않는 경우 멀티미디어 컨텐츠를 수정할 수 있다.
【도면의 간단한 설명】
도 1은 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 제작하는 과정을 개략적으로 나타내는 도면이다.
도 2는 일 실시 예에 따른 전자 장치가 BCI 신호 측정기로부터 획득하는 뉴럴 네트워크 신호의 종류와 뉴럴 네트워크 신호 별로 이용 가능한 신호 요소들을 설명하기 위한 도면이다.
도 3은 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 기반 멀티미디어 컨텐츠를 생성하는 방법의 흐름도이다.
도 4는 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 및 아이트래킹 신호에 기초하여 프롬프트를 식별하는 구체적인 방법의 흐름도이다.
도 5는 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 및 아이트래킹 신호에 기초하여 가상 사용자 입력 장치에서 사용자 의도 텍스트를 결정하는 과정을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 전자 장치가 가상 사용자 입력 장치를 서로 다른 변조 특성에 따라 표시하는 과정을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 전자 장치의 블록도이다.
도 8은 또 다른 실시 예에 따른 전자 장치의 블록도이다.
도 9는 일 실시 예에 따른 서버의 블록도이다.
도 10은 일 실시 예에 따른 전자 장치가 서버와 연동함으로써 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 과정을 나타내는 도면이다.
【발명을 실시하기 위한 구체적인 내용】
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 제작하는 과정을 개략적으로 나타내는 도면이다.
본 개시에 따른 멀티미디어 컨텐츠 제공 시스템(10)은 전자 장치(1000), 서버(2000) 및 BCI 신호 측정기(120)를 포함할 수 있다. 또 다른 예에 의하면, 멀티미디어 컨텐츠 제공 시스템(10)은 네트워크(3000)를 통해 전자 장치(1000)와 연결되는 다른 전자 장치(4000)를 더 포함할 수도 있다. 또 다른 예에 의하면 멀티미디어 컨텐츠 제공 시스템(10)은 카메라(130) 및 생체 신호 측정기(140)를 더 포함할 수도 있다. 본 개시에 따른 멀티미디어 컨텐츠 제공 시스템은 BCI 신호 측정기(120)를 통해 획득되는 뉴럴 네트워크 신호로부터 멀티미디어 컨텐츠(160)를 생성하고, 생성된 멀티미디어 컨텐츠를 사용자들에게 제공할 수 있다.
일 실시 예에 의하면 뉴럴 네트워크 신호는 사용자에게 시각적 자극이 제공되었을 때, 시각적 자극에 따른 신경 응답으로, 비침습형 센서(122)와 뇌침습형 센서(124) 중 적어도 하나로부터 획득가능한 뇌 신경 신호들을 포함할 수 있다. 예를 들어, 뉴럴 네트워크 신호는 뇌전도(EEG) 신호, 피질 전도 신호(ECoG), 스파이크 신호 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의하면 뉴럴 네트워크 신호를 전자 장치로 제공하는 BCI 신호 측정기는 뇌-컴퓨터 인터페이스 장치로 비침습형 또는 침습형 방식의 센서들을 이용하여 BCI 신호들을 측정할 수 있다. 일 예에 의하면, 전자 장치(1000)는 BCI 신호 측정기(120)로부터 획득되는 BCI 신호들에 기초하여 SMR(Sensorimotor rhythm), 알파파(alpha wave), 베타파(beta wave), 감마파(gamma wave)와 같은 뇌파(brain wave)같은 뇌 신호 요소들을 결정할 수 있다. 또 다른 예에 의하면, 전자 장치(1000)는 BCI 신호 측정기(120)로부터 획득되는 BCI 신호들에 기초하여 P300, Error Potential을 포함하는 ERP(Event Related potential)과 같은 뇌 신호 요소들을 결정할 수도 있다. 또 다른 예에 의하면, 전자 장치(1000)는 BCI 신호들에 기초하여 SSVEP(Steady-state visual evoked potential), SSSEP(Steady-state sensory evoked potential), ASSR(Auditory steady state responses) 중 적어도 하나를 포함하는 SSEP(Steady state evoked potential)과 같은 뇌 신호요소들을 결정할 수 있다. 전자 장치(1000)는 BCI 신호들 또는 BCI 신호들을 전처리함으로써 획득되는 뇌신호 요소들에 기초하여 사용자가 의도하는 텍스트를 결정할 수 있다.
또 다른 예에 의하면, 전자 장치(1000)는 BCI 신호(152)로부터 텍스트(154)를 결정하고, 결정된 텍스트에 인공지능 기반 영상 생성 모델(162)을 적용함으로써 영상 리소스 매칭(156) 과정을 수행할 수 있으며, 영상 리소스 매칭 과정을 통해 멀티미디어 컨텐츠(158)를 생성할 수 있다. 전자 장치(1000)는 생성된 멀티미디어 컨텐츠(158)를 사용자에게 제공할 수 있고, 멀티미디어 컨텐츠에 대한 편집 인터페이스를 사용자에게 더 제공할 수도 있다. 일 실시 예에 의하면, 전자 장치(1000)는 BCI 신호 측정기(120)로부터 획득되는 BCI 신호들에 더하여 카메라(130)로부터 획득되는 아이 트래킹 신호 또는 생체 신호 측정기(140)로부터 획득되는 기타 생체 신호들 중 적어도 하나를 더 이용함으로써, 사용자 의도 텍스트(154)를 결정할 수도 있다.
일 실시 예에 의하면 전자 장치(1000)는 카메라(130)로부터 획득되는 사용자 양안 이미지 또는 영상 정보에 기초하여, 사용자의 양안을 추적함으로써 2차원상 사용자 초점 영역을 추정할 수 있다. 또 다른 예에 의하면 전자 장치(1000)는 초점 영역이 사용자의 안면 영역으로부터 떨어진 거리(또는 깊이 정보)에 기초하여, 3차원 공간상에서 사용자 양안이 응시하는 초점 영역을 추정할 수도 있다. 또한, 전자 장치(1000)는 뉴럴 네트워크 신호 외에, 심전도(ECG), 근전도(EMG), 피부 전도(GSR) 신호, 피부 온도(SKT) 신호 중 적어도 하나에 관한 기타 생체 신호를 더 획득하고, 뉴럴 네트워크 신호 및 기타 생체 신호를 복합적으로 이용함으로써 사용자 의도 텍스트를 결정할 수도 있다.
또한, 도 1에는 도시되지 않았지만, 멀티미디어 컨텐츠 제공 시스템(10)은 사용자에게 시각적 자극을 제공하기 위한 LED 광원, LED 광원들을 포함하는 디스플레이 장치 또는 픽셀 신호들을 출력하기 위한 기타 디스플레이 장치들을 더 포함할 수 있다.
도 2는 일 실시 예에 따른 전자 장치가 BCI 신호 측정기로부터 획득하는 뉴럴 네트워크 신호의 종류와 뉴럴 네트워크 신호 별로 이용 가능한 신호 요소들을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 사용자(210)의 신체에 장착되는 BCI 신호 측정기(220)로부터 뉴럴 네트워크 신호(230)를 획득할 수 있다. 전자 장치(1000)는 뉴럴 네트워크 신호(230)로부터 뇌 신호 요소들을 결정할 수 있으며, 뇌 신호 요소들에 기초하여 사용자 의도 텍스트를 추정할 수 있다.
일 실시 예에 의하면, BCI 신호 측정기(220)는 뇌 침습형 또는 두피에 위치하는 비침습형 타입 중 적어도 하나에 관한 전극(221)들, 전극(221)에서 획득되는 전위 신호들을 디지털 신호로 변환하기 위한 ADC 회로(222), 획득된 전위 신호들 또는 ADC 변환 값을 전자 장치(1000)로 유선 또는 무선으로 전달하기 위한 네트워크 인터페이스(223)를 포함할 수 있다. 전극(221)에서 측정되는 전위 신호들은 주파수, 진폭과 같은 특성에 따라 BCI 신호들을 구성하게 된다. 또한, BCI 신호 측정기(220)는 전극(221), ADC 회로(222) 및 네트워크 인터페이스(223)의 동작을 제어하기 위한 인스트럭션을 저장하는 메모리(224) 및 메모리(224)에 저장된 인스트럭션을 실행하는 적어도 하나의 프로세서(225)를 포함할 수 있다.
전자 장치(1000)가 BCI 신호 측정기로부터 획득되는 뉴럴 네트워크 신호(230)는 뇌전도 신호(232), 피질 전도 신호(234), 스파이크 신호(236) 중 적어도 하나를 포함할 수 있다. 또한, 일 실시 예에 의하면 전자 장치(1000)가 뉴럴 네트워크 신호로부터 결정하는 뇌 신호 요소들은 뇌파(242), SMR(243), ERP(244), SSEP(246) 중 적어도 하나를 포함할 수 있다.
도 3은 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 기반 멀티미디어 컨텐츠를 생성하는 방법의 흐름도이다.
S310에서, 전자 장치(1000)는 적어도 하나의 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득할 수 있다. S320에서, 전자 장치(1000)는 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 뉴럴 네트워크 신호가 입력되면, 뉴럴 네트워크 신호의 특징 정보(예를 들어, 주파수 값, 주파수 대역 값, 대역 별 진폭 값, 파워 값, 상대 파워 값 등)에 기초하여 사용자 의도 텍스트 또는 사용자가 현재 집중하고 있는 가상 입력 장치상 하나의 포인트를 결정할 수 있다. 또한, 전자 장치(1000)는 뉴럴 네트워크 신호로부터 획득가능한 특징 정보들에 기초하여 뇌 신호 요소들을 결정하고, 뇌 신호 요소들이 나타내는 특징 패턴(예컨대 ERD 패턴 등)이 나타내는 특정 텍스트 또는 가상 사용자 입력 장치상 하나의 포인트 위치를 추정하는 인공지능 모델을 이용하여 사용자 의도 텍스트 또는 사용자가 현재 집중하고 있는 가상 입력 장치상 하나의 포인트를 결정할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 뉴럴 네트워크 신호의 특징 정보에 기초하여, 상기 뉴럴 네트워크 신호가 입력되면 상기 사용자가 의도한 텍스트를 검출하는 디코딩 모델에, 상기 뉴럴 네트워크 신호를 입력함으로써, 상기 디코뎅 모델의 출력 값에 기초하여 텍스트를 획득하고, 텍스트를 시계열적으로 나열함으로써 상기 프롬프트를 식별할 수 있다.
S330에서, 전자 장치(1000)는 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 프롬프트가 입력되면, 프롬프트를 요약함으로써 요약 문장을 생성하는 요약 문장 생성 모델로부터 요약문을 획득하고, 획득된 요약문에 포함된 문단들 별 핵심 키워드를 결정하고, 핵심 키워드에 기초하여 영상 리소스를 매칭할 수도 있다. S340에서, 전자 장치(1000)는 프롬프트에 매칭된 영상 리소스를 매칭함으로써 멀티미디어 컨텐츠를 생성할 수 있다.
도 4는 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 및 아이트래킹 신호에 기초하여 프롬프트를 식별하는 구체적인 방법의 흐름도이다.
S410에서, 전자 장치(1000)는 프롬프트 입력을 위해 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 상기 전자 장치 또는 상기 전자 장치와 연결된 디스플레이 상에 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 가상 사용자 입력 장치 이미지에 포함된 가상 사용자 입력 부분 인터페이스들을 서로 다른 주파수로 반짝이게 하거나, 플리커링시킬 수 있다. 또 다른 예에 의하면, 전자 장치(1000)는 가상 사용자 입력 부분 인터페이스들을 서로 다른 시각적 변조 특성(색상 변조, 표시 주파수 변조, 플리커링 주파수 변조 등)에 기초하여 디스플레이 상에 출력할 수도 있다.
S420에서, 전자 장치(1000)는 출력된 사용자 입력 장치 이미지에 대한 시각적 응답으로 뉴럴 네트워크 신호를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결되고, 뇌전도 센서, 뇌 표면 전극 센서 또는 뇌 침습형 전극 센서 중 적어도 하나를 포함하는 뇌-컴퓨터 인터페이스(Brain Computer Interface) 신호 측정기로부터, 뇌 전도 신호, 뇌 피질전도 신호, 신경 스파이크 신호, 뇌파 신호 중 적어도 하나를 포함하는 뉴럴 네트워크 신호를 획득할 수 있다.
S430에서, 전자 장치(1000)는 뉴럴 네트워크 신호와 함께 사용자 입력 장치에 대한 사용자 동공의 움직임을 추적함에 따른 아이트래킹 신호를 획득할 수 있다. S440에서, 전자 장치(1000)는 뉴럴 네트워크 신호 및 아이트래킹 신호에 기초하여 프롬프트를 식별할 수 있다.
도 5는 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호 및 아이트래킹 신호에 기초하여 가상 사용자 입력 장치에서 사용자 의도 텍스트를 결정하는 과정을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결된 디스플레이 또는 전자 장치에 포함된 디스플레이 상에 가상의 사용자 입력 인터페이스를 출력할 수 있다. 또 다른 예에 의하면, 전자 장치(1000)는 전자 장치에 미리 저장된 메타버스로 구성된 가상 공간상(예컨대 메타버스 공간 (530) 또는 메타버스 공간(532))에 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 출력할 수도 있다.
전자 장치(1000)가 시각적 자극으로 제공하는 적어도 하나의 가상의 사용자 입력 인터페이스는 제1 타입의 가상 인터페이스(510) 또는 제2 타입의 가상 인터페이스(520) 중 적어도 하나를 포함할 수 있다. 일 실시 예에 의하면 제1 타입의 가상 인터페이스(510)는 자판에 대응되는 복수의 부분 인터페이스들을 포함하는 키보드, 제2 타입의 가상 인터페이스(520)는 좌클릭 또는 우클릭에 대응되는 복수의 부분 인터페이스를 포함하는 마우스에 대응될 수 있으나, 이에 한정되는 것은 아니다. 전자 장치(1000)는 메타버스로 구성된 가상 공간상에 출력된 적어도 하나의 타입의 가상 사용자 입력 장치 이미지에 대한 시각적 응답으로 뉴럴 네트워크 신호들을 획득할 수 있다.
예를 들어, 전자 장치(1000)는 뉴럴 네트워크 신호에 기초하여 뉴럴 네트워크 신호의 특징 정보를 결정하고, 특징 정보에 기초하여 가상 사용자 입력 장치 이미지상 제1 초점 영역(542)의 위치를 식별할 수 있다. 전자 장치(1000)는 제1 타입 가상 인터페이스(510) 이미지 상에서 아이트래킹 신호에 따른 제2 초점 영역의 위치(544)를 식별할 수 있다. 전자 장치(1000)는 제1 초점 영역과 상기 제2 초점 영역이 중첩되는 중첩 영역의 면적과, 상기 제1 초점 영역 및 상기 제2 초점 영역을 포함하는 최외곽 초점 영역의 면적의 비율에 기초하여, 상기 가상 사용자 입력 장치 이미지상 하나의 포인트를 결정할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 제1 초점 영역과 상기 제2 초점 영역이 중첩되지 않는 경우, 제1 초점 영역과 제2 초점 영역을 식별하는데 사용된 뉴럴 네트워크 신호를 무시할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 제1 초점 영역과 상기 제2 초점 영역이 중첩되고, 중첩 영역의 면적이, 상기 제1 초점 영역 및 상기 제2 초점 영역을 포함하는 최외곽 초점 영역의 면적에 대해 차지하는 비율이 기 설정된 임계 비율 이상인 경우에만, 제1 초점 영역 및 제2 초점 영역에 기초하여 가상 사용자 입력 이미지상 하나의 포인트를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 제1 초점 영역과 상기 제2 초점 영역이 중첩되고, 중첩 영역의 면적이, 상기 제1 초점 영역 및 상기 제2 초점 영역을 포함하는 최외곽 초점 영역의 면적에 대해 차지하는 비율이 기 설정된 임계 비율 이상인 경우, 제1 초점 영역의 중심 좌표와, 제2 초점 영역의 중심 좌표의 평균 좌표에 대응되는 위치의 포인트를 식별하고, 식별된 포인트에 대응되는 부분 인터페이스에 대응되는 자판 또는 텍스트 요소를 식별할 수 있다.
마찬가지로, 또 다른 예에 의하면, 전자 장치(1000)는 제2 타입의 가상 인터페이스(520)상에서 뉴럴 네트워크 신호 기반 제1 초점 영역(546)과 아이트래킹 신호 기반 제2 초점 영역(548)을 식별하고, 제1 초점 영역(546)과 제2 초점 영역(548)이 중첩되는 면적이 식별되는지 여부, 상기 중첩 영역의 면적이 제1 초점 영역 및 상기 제2 초점 영역을 포함하는 최외곽 초점 영역의 면적에 대해 차지하는 비율에 기초하여 제2 타입 가상 인터페이스상 하나의 포인트에 대응되는 사용자 입력을 식별할 수 있다.
도 6은 일 실시 예에 따른 전자 장치가 가상 사용자 입력 장치를 서로 다른 변조 특성에 따라 표시하는 과정을 설명하기 위한 도면이다.
그림 (610)을 참조하면, 전자 장치(1000)는 복수의 자판에 대응되는 부분 인터페이스들을 포함하는 가상 사용자 입력 장치를 시각적 자극으로 제공할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 서로 다른 시각적 변조 특성에 기초하여 부분 인터페이스들(612, 614, 616, 618)을 서로 다른 방식으로 표시할 수 있다. 예를 들어, 전자 장치(1000)는 부분 인터페이스들을 6 헤르츠 내지 50헤르츠 사이의 주파수 범위 내 서로 다른 주파수율로 플리커링하도록 제어할 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 부부 인터페이스들을 서로 다른 시각적 변조 특성으로 표시함에 있어, 주파수율의 해상도를 0.2 헤르츠로 설정할 수도 있으나, 이에 한정되는 것은 아니다.
도 7은 일 실시 예에 따른 전자 장치의 블록도이다.
도 8은 또 다른 실시 예에 따른 전자 장치의 블록도이다.
도 7에 도시된 바와 같이, 일 실시 예에 따른 전자 장치(1000)는 프로세서(1300), 디스플레이(1210), 네트워크 인터페이스(1500) 및 메모리(1700)를 포함할 수 있다. 그러나, 도시된 구성 요소가 모두 필수구성요소인 것은 아니다. 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 그 보다 적은 구성 요소에 의해서도 전자 장치(1000)는 구현될 수도 있다.
예를 들어, 도 8에 도시된 바와 같이, 전자 장치(1000)는 프로세서(1300), 네트워크 인터페이스(1500) 및 메모리(1700)외에, 사용자 입력 인터페이스(1100), 출력부(1200), 센싱부(1400), 네트워크 인터페이스(1500), A/V 입력부(1600) 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력 인터페이스(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력 인터페이스(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
사용자 입력 인터페이스(1100)는, 뉴럴 네트워크 신호를 획득하기 위한 시각적 응답을 표시 및 제어하기 위한 사용자 입력을 획득할 수 있다. 또 다른 예에 의하면, 출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력하기 위한 화면을 포함한다. 또한, 화면은 전자 장치(1000)가 추론한 텍스트, 또는 텍스트에 부분 동영상을 매칭함으로써 생성한 렌더링 영상을 출력할 수 있다. 음향 출력부(1220)는 네트워크 인터페이스(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 전자 장치(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다.
프로세서(1300)는 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력 인터페이스(1100), 출력부(1200), 센싱부(1400), 네트워크 인터페이스(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(1300)는 메모리(1700)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 8에 기재된 전자 장치(1000)의 기능을 수행할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서(1300)는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치와 연결된 외부 장치로부터 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하고, 상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하고, 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하고, 상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서(1300)는 상기 프롬프트 입력을 위해 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 상기 전자 장치 또는 상기 전자 장치와 연결된 디스플레이 상에 출력하고, 상기 출력된 사용자 입력 장치 이미지에 대한 시각적 응답으로 상기 뉴럴 네트워크 신호를 획득하고, 상기 뉴럴 네트워크 신호와 함께 상기 사용자 입력 장치에 대한 사용자 동공의 움직임을 추적함에 따른 아이트래킹 신호를 획득하고, 상기 뉴럴 네트워크 신호 및 상기 아이트래킹 신호에 기초하여 상기 프롬프트를 식별할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서(1300)는 상기 전자 장치와 연결되고, 뇌전도 센서, 뇌 표면 전극 센서 또는 뇌 침습형 전극 센서 중 적어도 하나를 포함하는 뇌-컴퓨터 인터페이스(Brain Computer Interface) 신호 측정기로부터, 뇌 전도 신호, 뇌 피질전도 신호, 신경 스파이크 신호, 뇌파 신호 중 적어도 하나를 포함하는 뉴럴 네트워크 신호를 획득할 수 있다.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. 센싱부(1400)는 전자 장치(1000)의 사양 정보, 모니터링 대상 공간에 대한 온도, 습도, 기압 정보 등을 센싱할 수 있다.
예를 들어, 센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 또다른 예에 의하면, 센싱부(1400)는 사용자 생체 신호들(예컨대 근전도 신호, 심전도 신호)을 측정하기 위한 센서들을 더 포함할 수도 있다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
네트워크 인터페이스(1500)는 전자 장치(1000)가 다른 장치(미도시) 및 서버(2000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 전자 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 예를 들어, 네트워크 인터페이스(1500)는, 무선 통신 인터페이스 (1510), 유선 통신 인터페이스 (1520), 이동 통신부(1530)를 포함할 수 있다. 무선 통신 인터페이스(1510)는 근거리 통신부(short-range wireless communication unit), 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
유선 통신 인터페이스(1520)는 유선 통신을 통해 전자 장치와 연결된 외부 디바이스와 데이터를 주고받기 위한 적어도 하나의 유선 인터페이스를 포함할 수 있다. 이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 사용자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)은 사용자의 음성 입력을 수신할 수 있다. 마이크로폰(1620)은 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 또한, 메모리(1700)는 전자 장치(1000)가 이용하는 뉴럴네트워크 신호 패턴 학습을 위한 인공지능 모델, 텍스트 별 문맥 또는 핵심 키워드를 식별하기 위한 인공지능 모델, 텍스트 기반 영상 리소스 매칭을 통해 렌더링 영상 생성을 위한 인공지능 모델을 저장할 수 있다.
예를 들어, 메모리(1700)는 적어도 하나의 신경망 모델 내 레이어들, 노드들, 상기 레이어들의 연결 강도에 관한 가중치 값들을 저장할 수 있다. 또한, 전자 장치(1000)는 신경망 모델을 학습하기 위해 전자 장치(1000)가 생성한 학습 데이터를 더 저장할 수도 있다. 또한, 메모리(1700)는 전자 장치와 연결된 카메라들 또는 서버의 동작 환경에 대한 정보들을 더 저장할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 전자 장치(1000)가 뉴럴 네트워크 신호 기반 텍스트 식별, 텍스트 기반 영상 생성, 생성된 영상에 대한 편집을 위한 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 예를 들어, 전자 장치(1000)가 제공한 렌더링 영상에 대한 사용자 피드백이 획득되거나, 뉴럴 네트워크 신호 기반 식별된 텍스트에 대한 문맥 식별이 어려운 경우 이에 따른 알림음을 제공할 수 있다. 일 실시 예에 따른 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(1730)은 디스플레이부(1210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
도 9는 일 실시 예에 따른 서버의 블록도이다.
일 실시 예에 의하면, 서버(2000)는 네트워크 인터페이스(2100), 데이터 베이스(2200) 및 프로세서(2300)를 포함할 수 있다. 도 11에 도시된 서버(2000)의 구성은 도 7 내지 도 8에 기재된 전자 장치(1000)의 구성에 대응될 수 있다. 네트워크 인터페이스(2100)는 상술한 전자 장치(1000)의 네트워크 인터페이스(미도시)에 대응될 수 있다. 예를 들어, 네트워크 인터페이스(2100)는 전자 장치(1000)로부터 프롬프트 또는 텍스트 정보를 획득하고, 획득된 프롬프트 또는 텍스트 정보를 기초로 생성되는 영상 정보를 전자 장치로 전송할 수 있다.
또 다른 실시 예에 의하면, 네트워크 인터페이스(2100)는 전자 장치가 학습한 인공지능 모델, 신경망 모델, 뉴럴 네트워크 신호의 특징 및 패턴 정보들을 전자 장치와 송수신할 수 있다. 또 다른 예에 의하면 네트워크 인터페이스(2100)는 텍스트 또는 프롬프트에 매칭되는 부분 동영상 정보들, 부분 동영상 정보들에 매칭되는 태그 정보들을 송수신할 수 있다.
또한, 일 실시 예에 의하면 데이터 베이스(2200)는 도 7 내지 도 8에서 상술한 메모리에 대응될 수 있다. 예를 들어, 데이터 베이스(2200)는 전자 장치(1000)로부터 획득되는 뉴럴 네트워크 신호 정보들, 텍스트 정보들, 텍스트 정보들에 매칭 가능한 영상 또는 이미지 정보들을 저장할 수 있다.
일 실시 예에 의하면, 프로세서(2300)는 서버(2000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(2300)는 네트워크 인터페이스(2100) 및 데이터 베이스(2200)를 제어함으로써, 도 1 내지 8에서 기재된 전자 장치(1000)가 수행하는 뉴럴 네트워크 신호 기반 멀티키디어 컨텐츠를 생성하는 방법 중 전부 또는 일부를 수행할 수 있다.
도 10은 일 실시 예에 따른 전자 장치가 서버와 연동함으로써 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 과정을 나타내는 도면이다.
S1010에서, 전자 장치(1000)는 뉴럴 네트워크 신호를 획득할 수 있다. S1022에서, 서버(2000)는 인공지능 기반 영상 생성 모델을 미리 구축 & 학습시킬 수 있다. S1020에서, 전자 장치(1000)는 뉴럴 네트워크 신호로부터 프롬프트를 식별할 수 있다. S1030에서, 전자 장치(1000)는 식별된 프롬프트를 서버(2000)로 전송할 수 있다. S1040에서, 서버(2000)는 프롬프트 또는 요약된 프롬프트로부터 문단 별 문맥을 결정하고, 문맥에 따른 부분 동영상 매칭을 수행함으로써 전체 영상을 렌더링할 수 있다. S1050에서, 서버(2000)는 렌더링 영상을 전자 장치로 전송할 수 있다. S1060에서, 전자 장치(1000)는 렌더링 영상을 디스플레이 상에 출력할 수 있다.
본 개시에 따른 뉴럴 네트워크 신호 기반 멀티미디어 컨텐츠 생성 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.
【청구범위】
【청구항 1】
전자 장치가 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법에 있어서,
적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하는 단계;
상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하는 단계;
상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하는 단계; 및
상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는 단계; 를 포함하는, 방법.
【청구항 2】
제1항에 있어서, 상기 방법은
상기 프롬프트 입력을 위해 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 상기 전자 장치 또는 상기 전자 장치와 연결된 디스플레이 상에 출력하는 단계;
상기 출력된 사용자 입력 장치 이미지에 대한 시각적 응답으로 상기 뉴럴 네트워크 신호를 획득하는 단계;
상기 뉴럴 네트워크 신호와 함께 상기 사용자 입력 장치에 대한 사용자 동공의 움직임을 추적함에 따른 아이트래킹 신호를 획득하는 단계; 및
상기 뉴럴 네트워크 신호 및 상기 아이트래킹 신호에 기초하여 상기 프롬프트를 식별하는 단계; 를 포함하는, 방법.
【청구항 3】
제2항에 있어서, 상기 뉴럴 네트워크 신호를 획득하는 단계는
상기 전자 장치와 연결되고, 뇌전도 센서, 뇌 표면 전극 센서 또는 뇌 침습형 전극 센서 중 적어도 하나를 포함하는 뇌-컴퓨터 인터페이스(Brain Computer Interface) 신호 측정기로부터,
뇌 전도 신호, 뇌 피질전도 신호, 신경 스파이크 신호, 뇌파 신호 중 적어도 하나를 포함하는 뉴럴 네트워크 신호를 획득하는 단계; 를 포함하는, 방법.
【청구항 4】
제2항에 있어서,
상기 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 출력하는 단계는,
상기 전자 장치에 미리 저장된 메타버스로 구성된 가상 공간상에 상기 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 출력하는 단계; 를 포함하고,
상기 뉴럴 네트워크 신호를 획득하는 단계는,
상기 메타버스로 구성된 가상 공간상에 출력된 상기 적어도 하나의 타입의 가상 사용자 입력 장치 이미지에 대한 시각적 응답으로, 상기 뉴럴 네트워크 신호를 획득하는 단계; 를 포함하는, 방법.
【청구항 5】
제2항에 있어서, 상기 프롬프트를 식별하는 단계는
상기 뉴럴 네트워크 신호의 특징 정보에 기초하여, 상기 뉴럴 네트워크 신호가 입력되면 상기 사용자가 의도한 텍스트를 검출하는 디코딩 모델에, 상기 뉴럴 네트워크 신호를 입력함으로써, 상기 디코뎅 모델의 출력 값에 기초하여 텍스트를 획득하는 단계; 및
상기 텍스트를 시계열적으로 나열함으로써 상기 프롬프트를 식별하는 단계; 를 포함하는, 방법.
【청구항 6】
제2항에 있어서, 상기 프롬프트를 식별하는 단계는
상기 뉴럴 네트워크 신호의 특징 정보에 기초하여, 상기 가상 사용자 입력 장치 이미지상 제1 초점 영역의 위치를 식별하는 단계;
상기 가상 사용자 입력 장치 이미지상에서, 상기 아이트래킹 신호에 따른 제2 초점 영역의 위치를 식별하는 단계;
상기 제1 초점 영역과 상기 제2 초점 영역이 중첩되는 중첩 영역의 면적과, 상기 제1 초점 영역 및 상기 제2 초점 영역을 포함하는 최외곽 초점 영역의 면적의 비율에 기초하여, 상기 가상 사용자 입력 장치 이미지상 하나의 포인트를 결정하는 단계; 및
상기 결정된 포인트에 기초하여 상기 프롬프트를 식별하는 단계; 를 포함하는, 방법.
【청구항 7】
사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 전자 장치에 있어서,
디스플레이;
네트워크 인터페이스;
하나 이상의 인스트럭션을 저장하는 메모리;
상기 하나 이상의 인스트럭션을 수행하는 적어도 하나의 프로세서; 를 포함하고,
상기 적어도 하나의 프로세서는
상기 전자 장치와 연결된 외부 장치로부터 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하고,
상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하고,
상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하고,
상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는, 전자 장치.
【청구항 8】
제7항에 있어서, 상기 적어도 하나의 프로세서는
상기 프롬프트 입력을 위해 적어도 하나의 타입의 가상 사용자 입력 장치 이미지를 상기 전자 장치 또는 상기 전자 장치와 연결된 디스플레이 상에 출력하고,
상기 출력된 사용자 입력 장치 이미지에 대한 시각적 응답으로 상기 뉴럴 네트워크 신호를 획득하고,
상기 뉴럴 네트워크 신호와 함께 상기 사용자 입력 장치에 대한 사용자 동공의 움직임을 추적함에 따른 아이트래킹 신호를 획득하고,
상기 뉴럴 네트워크 신호 및 상기 아이트래킹 신호에 기초하여 상기 프롬프트를 식별하는, 전자 장치.
【청구항 9】
제8항에 있어서, 상기 적어도 하나의 프로세서는
상기 전자 장치와 연결되고, 뇌전도 센서, 뇌 표면 전극 센서 또는 뇌 침습형 전극 센서 중 적어도 하나를 포함하는 뇌-컴퓨터 인터페이스(Brain Computer Interface) 신호 측정기로부터, 뇌 전도 신호, 뇌 피질전도 신호, 신경 스파이크 신호, 뇌파 신호 중 적어도 하나를 포함하는 뉴럴 네트워크 신호를 획득하는, 전자 장치.
【청구항 10】
전자 장치가 사용자의 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법에 있어서,
적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하는 단계;
상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하는 단계;
상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하는 단계; 및
상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는 단계; 를 포함하는, 방법을 수행하도록 하는 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.
【요약서】
【요약】
본 개시는 일 실시 예에 따른 전자 장치가 뉴럴 네트워크 신호에 기초하여 멀티미디어 컨텐츠를 생성하는 방법은 적어도 하나의 타입의 뉴럴 네트워크 신호를 획득하는 단계; 상기 획득된 뉴럴 네트워크 신호에 기초하여 상기 사용자가 의도한 프롬프트를 식별하는 단계; 상기 식별된 프롬프트에 포함된 하나 이상의 문장을 포함하는 문단들 별 핵심 키워드에 기초하여, 상기 프롬프트에 영상 리소스를 매칭하는 단계; 및 상기 프롬프트에 매칭된 상기 영상 리소스를 합성함으로써 멀티미디어 컨텐츠를 생성하는 단계; 를 포함할 수 있다.
댓글