POSTECHIAN 기사 보기

[2022 봄호] 3-전자전기공학과가 본 '황사 X 미세먼지'

  • 강아림
  • 2022-06-24 07:02:36

2022 SPRING 공대생이 보는 세상 3

전자전기공학과가 본 '황사 X 미세먼지'
Dept. of Electrical Engineering



콜록! 콜록! 봄이 오면 황사와 미세먼지 때문에 건강에 주의해야 하듯이 반도체 공정에도 각별한 주의가 필요해. 반도체 공정의 경우 극소량의 오염물질만으로도 불량품이 생겨나는데, 황사와 미세먼지가 발생하면 공정 과정에서 불량품이 생겨날 확률이 매우 높아지게 돼. 그래서 오염물질을 배출하고 깨끗한 공기만을 유입하는 반도체 공정을 위한 최적의 공간이 있어. 바로 클린룸 Cleanroom이야. 클린룸의 청정도를 나타내는 단위는 $CLASS$로, $1{ft}^3$ 내에 $0.5μm$ 크기의 오염물질의 입자 수로 결정돼. 클린룸은 사용 목적이나 반도체 종류에 따라 청정도 조건이 매우 다른데, 보통 반도체 웨이퍼 공정을 위한 클린룸은 CLASS 10~100 정도로 유지해. 도대체 클린룸은 어떻게 오염물질들을 배출하여 깨끗한 공간을 유지할 수 있을까?

그림1. 반도체 공정 클린룸 구조

대표적인 반도체 공정 클린룸의 구조는 FABFabrication Facility, RPReturn Plenum, SPSupply Plenum 총 3개의 층으로 이루어져 있어. 먼저, FAB 층은 반도체 공정이 진행되는 층이야. FAB 층에 존재하는 공기는 바닥의 그래이팅Grating이라는 패널을 통해 RP 층으로 향하고, 통로를 지나 FAB 위의 SP 층으로 이동해. SP 층에 있는 수많은 FFUFan Filter Unit가 내부 공기에 존재하는 오염물질을 걸러낸 후 다시 FAB 층으로 보내는 거야.
이러한 순환 과정에서 공정에 영향을 주는 온도, 습도, 압력 등을 조절하고 FFU를 통해 일정한 기류를 만들어 FAB 층에서 최적의 환경 조건을 유지할 수 있어. 클린룸은 반도체 공정 이외에도 다양한 분야에서 필수적인 기술인데, 디스플레이, 배터리와 같은 초정밀 공정에서는 ‘산업용 클린룸’이, 제약, 식품 등의 연구소에서는 ‘바이오 클린룸’이 사용돼. 나날이 성능이 올라가는 클린룸 덕분에 황사나 미세먼지가 몰려와도 공정을 막힘없이 진행할 수 있는 거지.
그럼 우리도 황사나 미세먼지를 피하려고 클린룸에 숨어도 되냐고? 안돼, 그건 위험해! 클린룸은 공정이나 연구에 최적화된 공간이라, 사람이 견디기엔 적합한 습도와 압력이 아닌 위험한 공간이니까 조심하자!
지금까지 전자전기공학과가 본 '황사 X 미세먼지'였어. 다른 학과는 어떻게 봤을 지 궁금하지 않니?
[NEXT] 4- 컴퓨터공학과가 본 '황사 X 미세먼지'

ALIMI 26기 신소재공학과 강아림

알리미는 언제나 열려있습니다. 고민이나 질문이 있는 친구들은 편하게 알리미에게 연락주세요!

기사 모아 보기
공유하기
목록

POSTECHIAN 기사 보기

[2021 가을호] 세계가 주목한 한국 과학자들

  • 강아림
  • 2021-12-10 07:00:43

2021 AUTUMN SCIENCE BLACK BOX

세계가 주목한 한국 과학자들

'최초'의 위대함

이공계 인재가 되고 싶은 사람이라면 누구나 꿈꿀 세계적인 과학자.
자신이 연구하거나 개발한 것이 전 세계적으로 주목받는 것만큼이나 심장이 뛰는 경험이 과연 있을까요?
지금도 전국에 있는 수많은 과학자가 연구에 매진하며 성과를 내기 위해 노력하고 있습니다.
그리고 여기, 실제로 과학계를 뒤흔들만한 업적을 냈던 한국 과학자들이 있습니다.
이번 호에서는 세계가 주목한 한국 과학자들이라는 주제로 이야기를 들려드리도록 하겠습니다.


#1. 그래핀 연구의 선도자, 김필립 교수님

그림 1. 김필립 교수님
그래핀 Graphene은 세상에서 가장 얇은 물질로 알려져 있으며 구조적, 화학적으로 안정함과 동시에 전기적 성질이 매우 뛰어나 ‘꿈의 물질’이라고 불립니다. 그래핀의 발견이 2010년 노벨 물리학상으로 이어질 정도로, 그래핀은 발견 당시 과학계를 뜨겁게 달구기 시작했습니다. 김필립 교수님께서는 이 그래핀 연구의 시작을 선도한 인물이자, 그래핀 연구의 세계적인 권위자이십니다.
그래핀은 2004년에 안드레 가임과 콘스탄틴 노보셀로프에 의해서 최초로 제조됩니다. 이 그래핀이 탄생한 일화가 꽤 유명한데요, 두 학자는 탄소 원자 한 층이 레이어로 쌓여있는 구조인 흑연에 접착용 셀로판 테이프를 붙였다 떼는 획기적인 방식으로 그래핀을 제조하여 노벨상을 받게 되죠. 그로부터 얼마 지나지 않은 2005년, 김필립 교수님께서는 그래핀의 물리적 특성을 최초로 규명한 논문을 게재하셨습니다. 전자가 2차원 물질에 갇히면 양자역학적으로 전자 간 상호작용이 복잡해집니다. 이것이 그래핀에서는 분수 양자 홀 효과 Quantum Hall Effect로 발견되어 더욱더 특이해지며, 그래핀의 전자가 모래시계 모양의 디랙 콘 Dirac Cone이라고 부르는 에너지띠를 갖기 때문에 매우 빠른 속도로 이동한다는 것을 설명하면서 그래핀의 물리적 특성들을 규명했습니다. 이 발견은 응집물질 물리학에 지대한 영향을 끼쳐 국제학계의 주목을 받았음에도 불구하고, 김필립 교수님께서는 2010년 노벨 물리학상 수상자에 이름을 올리지 못하셨습니다. 이 사건을 두고 네이처를 비롯한 과학계에서는 노벨상 선정이 잘못되었다며 항의를 하기도 했으나, 받아들여지지 않았습니다. 노벨상 수상자인 안드레 가임은 “나는 그에게 빚진 것이 많다. 그와 상을 공유하였으면 영광이었을 것이다.”라며 김필립 교수님의 공을 인정하기도 했죠.

김필립 교수님께서는 ‘과학자는 끊임없이 대중과 소통해야 한다.’라는 생각으로 과학과 기술을 대중들에게 쉽게 알리려 노력하고 계십니다.
양자 물리나 양자 소재에 관심 있는 친구들은 아래 버튼을 눌러 교수님의 강연을 들어보는 것을 추천해 드립니다!

[제1회 과학혁신 컨퍼런스] 김필립 교수님의 강연

#2. MOS 혁명의 주인공, 강대원 박사님

그림 2. 강대원 박사님

과거에는 어마어마한 덩치를 자랑했던 컴퓨터. 그 당시의 사람들은 컴퓨터를 들고 다닌다는 것을 상상할 수 없었을지도 모릅니다. 하지만 오늘날의 사람들은 노트북과 핸드폰을 간편하게 들고 다니며 언제 어디서나 사용할 수 있는데요. 이것이 가능한 이유는 MOSFET Metal Oxide Semiconductor Field Effect Transistor 덕분입니다. 모스펫 MOSFET은 현대 반도체 기술에서 빠질 수 없는 핵심 소자로, 한국의 반도체 물리학자인 강대원 박사님께서 개발하셨습니다.
강대원 박사님께서는 1959년 당시 세계 최고의 연구소인 미국 벨 연구소에 입사하시게 됩니다. 그곳에서 모스펫을 개발하시기 전에, 윌리엄 쇼클리와 바딘, 브래튼이 1947년에 공동 개발한 BJT Bipolar Junction Transistor라는 세계 최초의 반도체가 이미 과학계에서 주목받고 있었습니다. 고등학교에서 배울 수 있는 PNP형, NPN형 트랜지스터가 바로 BJT이죠. 처음엔 BJT가 획기적이라는 평가를 받았으나, 시간이 흐르면서 BJT 특성상 전력 소비가 크고 반도체 칩에 고집적 하는 것이 어려워 대량 생산에 적합하지 않음이 밝혀졌습니다. 반면 모스펫은 적은 전력으로 반도체를 구동할 수 있고 고집적화가 가능하여 반도체의 대량 생산에 적합했습니다. 모스펫의 발명은 ‘MOS 혁명’이라고 불릴 정도로 과학계를 떠들썩하게 만들었으며, 이후 핸드폰과 노트북에 쓰이는 IC(집적회로)를 발전시키고 IC 시대의 문을 열었다는 평을 받게 됩니다. 그 후에도 비휘발성 메모리의 대표주자인 낸드플래시 NAND Flash플로팅 게이트 Floating Gate 메모리 셀을 발명하며 반도체 산업의 크게 이바지하시게 됩니다. 강대원 박사님께서는 모스펫을 발명한 공로를 인정받아 1975년에 프랭클린 연구소에서 수여하는 ‘스튜어트 밸런타인 메달’을 수상하셨고, 2009년에 한국인 최초로 미국 ‘발명가 명예의 전당’의 헌액자로 이름을 올리셨습니다.

한국 반도체 학술대회(KCS)에서는 강대원 박사님의 업적을 기리는 ‘강대원 상’을 제정하여
매년 반도체 분야의 우수한 연구자들에게 시상하고 있습니다.
반도체 분야의 전공을 희망하는 학생들에게 이 상을 목표로 공부해 나가는 건 어떨까요?

제29회 한국 반도체 학술대회

#3. 대한민국 최초의 화학박사, 이태규 박사님

그림 3. 이태규 박사님

마지막으로 소개해 드릴 분은 ‘최초’라는 수식어가 가장 잘 어울리는 분입니다. 대한민국에 과학 분야, 특히 화학이 단단히 뿌리 내릴 수 있도록 기반이 되어주셨다고 할 수 있죠. 일제강점기와 2차 세계대전, 그리고 6.25 전쟁의 시대를 지나오시면서 시대적 어려움이 있었으나 조국의 힘을 기르기 위해 화학도의 길을 묵묵히 걸어오셨던, 그분은 바로 이태규 박사님이십니다.
이태규 박사님께서는 1927년 일본 교토 제국대학교 화학과를 졸업하신 후, 1931년 ‘환원 니켈의 존재에서 일산화탄소의 분해’라는 논문으로 한국인 최초로 화학 분야의 박사학위를 취득하셨습니다. 이를 두고 동아일보에서는 ‘조선 최초의 이학박사다’라며 대서특필했습니다. 박사님께서는 이후 미국에서 이론화학자인 헨리 아이링 교수를 만나 1940년 쌍극자 모멘트 계산에 대한 논문을 발표하셨습니다. 이는 최초로 화학 반응에 양자역학을 도입했다는 평가를 받고 있습니다. 또한 비뉴턴 유체에 관해 연구하여 1955년에 두 과학자의 이름을 딴 리-아이링 이론 Ree-Eyring Theory을 발표하시게 됩니다. 리-아이링 이론은 이론적으로 접근하기 어려웠던 비뉴턴 유체의 유동 현상, 즉 케첩처럼 점도 Viscosity의 변화가 응력 Stress에 비례하지 않는 유체가 움직이는 현상을 다루는 일반 공식을 설명합니다. 이 이론으로 이태규 박사님께서는 세계적인 과학자 반열에 오르셨으며 분자 점성학의 기초를 세우셨습니다. 이런 업적들로 인해 1965년에 한국인 최초로 노벨상 수상자 후보 추천위원으로 위촉되셨으며, 1969년에는 처음으로 노벨상 후보로 추천되셨습니다. 이후 칠순을 넘기신 연세에도 연구를 이어나가셨으며, 살아생전 500여 편의 논문을 발표하시는 등 대한민국 화학의 기반을 구축하고 발전시킨 공을 인정받아 과학자로서 최초로 국립현충원에 안장되셨습니다.


이렇게 세계가 주목한 한국 과학자들에 대해 알아보았습니다. 글에서 다룬 세 분 말고도 많은 한국 과학자들이 세계의 주목을 받고 있고, 자신의 연구에 뜨거운 열정을 안고 열심히 노력하고 있습니다. 여러분도 포스텍에서 여러분의 심장을 뛰게 할 연구 분야를 찾아 세계적인 과학자가 되었으면 좋겠네요!

ALIMI 26기 신소재공학과 강아림

알리미는 언제나 열려있습니다. 고민이나 질문이 있는 친구들은 편하게 알리미에게 연락주세요!

기사 모아 보기
공유하기
목록

POSTECHIAN 기사 보기

[2021 봄호] 1 - 신소재공학과가 본 교실

  • 강아림
  • 2021-07-09 07:00:13

2021 SPRING 공대생이 보는 세상 1

신소재공학과가 본 교실
Dept. of Materials Science & Engineering






‘딩동댕동’ 종 쳤다! 드디어 쉬는 시간이야!

피곤했었는데 마침 학교 스피커에서 종이 울리네.

그나저나 저 스피커는 무슨 소재로 되어있는 걸까? 그냥 플라스틱인 것 같은데, 단단해 보이기도 하고? 아, 학교 스피커는 ABS Acrylonitrile Butadiene Styrene 수지로 만들어졌지! ABS는 한 종류의 단위체로 이루어지는 단일 중합체와는 다르게, 아크릴로니트릴 Acrylonitrile, 부타디엔 Butadiene, 스타이렌 Styrene 이렇게 두 종류 이상의 단량체가 중합되어 있어서 공중합체라고 불러.

그럼 공중합체는 어떻게 형성할 수 있을까?

공중합체를 형성하는 방법 중 하나가 바로 자유 라디칼 중합 free radical polymerization으로, 자유 라디칼을 이용해서 단량체들을 중합하는 방법이야.

여기서 자유 라디칼은 홀전자를 가지고 있어서 매우 불안정한 성질을 띠는 원자, 분자, 혹은 이온을 말해. 열, 빛 등 외부 자극에 의해 매우 쉽게 라디칼을 형성하는 물질인 라디칼 개시제Initiator를 이용하면 자유 라디칼을 쉽게 얻을 수 있어. 홀전자를 가지고 있어 불안정하다는 말은 화학 반응성이 높다는 거야! 그래서 단량체에서 쉽게 전자를 하나 빼앗아 결합하고, 단량체는 전자쌍에서 전자를 빼앗겼기 때문에 말단에 홀전자가 생기면 또 다른 라디칼이 되어서 다른 단량체와 반응하는 거지! 이 반응이 연쇄적으로 일어나면서 단량체들은 길게 결합해서 사슬이 되고, 사슬 끝에 있는 라디칼끼리 결합하여 아주 긴 사슬을 형성하는 거야.

하지만 꼭 사슬의 말단끼리 결합하지는 않아!


앞서 말했듯이 라디칼은 매우 불안정해서, 다른 고분자 사슬의 중간에 있는 전자를 하나 빼앗아 전자쌍을 이룰 때가 있어. 이렇게 사슬의 중간에 결합이 자주 일어나다 보면 가지를 뻗듯이 고분자가 형성되는데, ABS 역시 세 종류의 단량체가 가지처럼 결합해서 생긴 공중합체야! ABS는 단량체 간의 상호작용 덕분에 내구성과 강도가 좋아서 학교 스피커 말고도 레고, 컴퓨터, 헤어드라이어 등에 사용된다고 해.

앗, 수업 종 쳤다! 난 이만 수업 들으러 가볼게. 안녕 ~.


ALIMI 26기 신소재공학과 강아림

알리미는 언제나 열려있습니다. 고민이나 질문이 있는 친구들은 편하게 알리미에게 연락주세요!

기사 모아 보기
공유하기
목록

POSTECHIAN 기사 보기

[2020 겨울호] 2-청각과 시각을 잡는 음성 합성 기술, Speech Synthesis

  • 강아림
  • 2021-01-22 16:01:09

2020 WINTER 기획특집 2

청각과 시각을 잡는 음성 합성 기술, Speech Synthesis

Virtual Human


삼성 NEON, 그리고 AI로 만들어진 터틀맨은 실제 인간처럼 자연스럽게 목소리를 내고 입을 움직입니다.
어떻게 이렇게 자연스러운 것일까요?

그 해답은 바로 음성 합성 기술에 있습니다!
음성 합성 기술은 청각적인 것뿐만 아니라 입 모양이나 표정처럼 시각적인 것까지 담아야 하므로,
더욱더 자연스럽게 만들기 위해 연구가 활발히 진행되고 있습니다.

그럼 지금부터 음성 합성 기술에 대해 본격적으로 알아볼까요?

청각적 음성 합성 기술

음성 합성 Speech Synthesis은 기계가 음성을 만들어 내는 것을 말합니다. 사람의 말소리를 녹음하여 음성 단위, 즉 유닛 Unit으로 나누어 저장했다가, 텍스트를 입력하면 저장되어있던 특정 유닛들이 합성되어 음성이 만들어 집니다.
이렇게 텍스트를 음성으로 변환한다는 점에서 이를 TTS Text-to-Speech,라고 부르기도 합니다. 음성 합성 기술은 인간의 조음 기관을 따라 하던 지식 기반 접근 방식에서 시작하여, 녹음된 음성들을 데이터베이스로 만들어 음성을 합성하는 연결 합성 Unit Selection Synthesis통계 기반 파라미터 합성 Statistical Parametric Speech Synthesis을 포함하는 데이터 기반 접근 방식으로 접어들게 되었습니다.

연결 합성은 실제 음성 데이터를 유닛으로 나누어 저장한 후 음성을 합성하는 기술입니다. 그러나 운율이 모두 다 다른 음성 데이터들의 유닛을 이어 붙이게 되면 부자연스러울 뿐만 아니라, 말하는 속도, 음의 세기, 크기 등과 같은 특징들이 원본 녹음 데이터와 똑같아질 수밖에 없습니다. 그래서 다양한 특징을 포함할 수 있는 더 큰 데이터베이스와 이를 적용할 수 있는 기술의 필요성을 느끼게 되죠. 그렇게 나타난 것이 통계 기반 파라미터 합성 기술입니다.

통계 기반 파라미터 합성은 유사하게 들리는 음성 특징 파라미터 Parameter[각주 1]들을 모델링하여 ‘평균’을 만든 후 음성을 합성하는 것으로 설명할 수 있습니다. 실제 음성 데이터인 유닛을 합성하는 연결 합성과는 차이가 있죠. 일반적인 통계 기반 파라미터 합성 시스템은 데이터 패턴을 통계적으로 분석하여 정보를 추론하는 모델인 HMM Hidden Markov Model을 사용합니다. 이 시스템은 크게 학습 과정 Training part합성 과정 Synthesis part으로 나눌 수 있습니다.


HMM 기반 음성 합성 시스템의 전체 구성도

학습 과정에서는 음성을 분석하여 높낮이, 음의 세기와 같이 특징을 나타내는 파라미터를 추출한 다음, HMM을 사용하여 모델링합니다. 그리고 합성 과정에서는 이 음성 파라미터들을 데이터베이스에서 가져와서 음성을 합성한 후 출력합니다. 이 과정을 쉽게 설명하기 위해 ‘ㄱ’이라는 음소에 대한 모델링을 살펴보겠습니다. ‘가’, ‘공’, ‘낙’을 발음해 보면 ‘ㄱ’에 해당하는 음성들이 다 다른 것을 알 수 있습니다. 이것은 발음 기관의 움직임을 뜻하는 조음(調音)의 편의를 위해 이어 나오는 두 소리의 조음 동작이 겹치기 때문입니다. 이처럼 먼저 나오는 음이 후에 나오는 음에 영향을 미치는 것을 동시 조음 Coarticulation이라고 합니다. 동시 조음으로 인해 ‘ㄱ’의 특성이 달라지기 때문에, 학습 과정에서는 음성들로부터 파라미터를 추출하여 비슷한 특성이 있는 ‘ㄱ’끼리 모으는 집단화 Clustering를 거친 후 집단화된 ‘ㄱ’들 간의 통계치(평균과 분산)를 구하여 저장합니다. 합성 과정에서는 입력받은 텍스트로부터 적절한 ‘ㄱ’의 모델을 찾고, 데이터에 저장된 통계치를 통해 원래의 파라미터로 복원하여 음성을 만들어 내는 것이죠.



은닉 마르코프 모델, HMM에 대한 더 자세한 내용은 아래 버튼을 통해 알아보실 수 있습니다.

HMM 자세히 알아보기

시각적 음성 합성 기술

여기까지 청각적 음성을 합성하는 기술에 대해 알아보았습니다. 하지만 청각적으로 음성을 합성한다고 해도, 가상 인물이 이 음성을 말하기 위해서는 정확한 입 모양도 구현되어야겠죠? 그렇기 때문에 언어적, 음향적 표현을 시각적으로 합성하는 기술 역시 필요합니다.

그러기 위해서는 특정 음성을 말할 때의 얼굴의 모양과 입의 위치를 알아야 합니다. 이때 얼굴과 입의 위치를 비짐 Viseme이라고 합니다. 비짐은 단어의 의미를 구별 짓는 최소의 시각적 단위라고 할 수 있습니다. 즉, 음소[각주 2]로 ‘ㄱ, ㄴ, ㄷ’라고 한다면 비짐으로는 ‘ㄱ, ㄴ, ㄷ를 발음했을 때의 얼굴의 모양과 입의 위치’를 나타내며, 다양한 연구를 통해 현재 아래 그림과 같이 목록화되어 있습니다. 따라서 시각적 음성을 합성하기 위해서는 먼저 사람이 말하는 모습을 다각도의 영상으로 담은 후, 음성 특징을 특정 비짐에 하나씩 매핑 Mapping 시키면 됩니다.

하지만 여기서 앞서 설명한 ‘동시 조음’으로 인하여 문제가 발생합니다. 앞선 예시와 동일하게, ‘가’, ‘공’, ‘낙’과 같은 음성 데이터에서는 동시 조음이 발생하여 같은 ‘ㄱ’임에도 불구하고 입 모양이 달라집니다. 이를 해결하기 위해 동시 조음이 일어나는 순간 하나하나를 분석할 수 있도록 모델 영상을 프레임[각주 3] 단위로 나눕니다. 프레임 수준과 음소 수준에서의 음성 특징을 각각 추출한 뒤, 비짐에 매핑해 시각적 음성 데이터들을 입력하는 것이죠.


영어기반 비짐(Viseme) 사전



이렇게 데이터를 입력하여 데이터베이스를 구축했다면, 다음 단계는 입력받은 텍스트를 시각적으로 출력하는 것입니다. 그러기 위해서 말을 할 때 얼굴이 어떻게 변형되는지 추정하게 되는데, 이때 주성분 분석, PCA Principal Component Analysis를 기반으로 특징점을 추출한 다음, 이를 이용해 모델을 생성하는 알고리즘인 AAM Active Appearance Model이 사용됩니다.

여기서 PCA란 입력된 정보의 정보 손실을 최소화하면서 벡터의 차원을 낮추는 것을 목적으로 하는 특징 추출의 한 방법입니다. 2차원의 데이터 분포의 예를 한번 살펴봅시다. 아래 그림을 보면 2차원의 특징 벡터들이 $y=x$ 직선에 투영된 것을 볼 수 있습니다. 이렇게 되면 2차원의 정보들이 직선 위에 표현되므로 1차원 공간으로 표현할 수 있고, 만약, $y=x$가 투영된 데이터의 분산을 가장 크게 만드는 직선이라면 이것이 PCA의 결과가 되는 것입니다.


2차원 위 데이터들의 PCA 결과




주성분 분석, PCA에 대한 더 자세한 내용은 아래 버튼을 통해 알아보실 수 있습니다.

PCA 자세히 알아보기



따라서 표정과 입, 턱에 대해 각각 PCA를 진행하면 표정과 입, 턱의 특징을 가진 데이터들의 변환 행렬과 평균 벡터가 반환됩니다. 이렇게 반환된 벡터들을 가지고 아래 식처럼 최종적으로 PCA를 수행하면 AAM 벡터가 나타납니다. AAM 벡터를 $\boldsymbol{a}$라고 하고 표정, 입, 턱에서 추출된 데이터들의 평균 벡터를 각각 $\boldsymbol{s}$, $\boldsymbol{b_m}$, $\boldsymbol{b_j}$라고 했을 때, $\boldsymbol{a}$는 $\boldsymbol{s}$, $\boldsymbol{b_m}$, $\boldsymbol{b_j}$ 벡터들의 행렬값으로 나타나며 고차원의 벡터가 됩니다. 이 벡터를 이미지에 적용하여 시각적 음성을 합성할 수 있는 것입니다.
$$\boldsymbol{a} = \boldsymbol{R} \left[ { \begin{array}{ccc} \boldsymbol{s} \\ \boldsymbol{b_m} \\ \boldsymbol{b_j} \end{array} } \right]$$
$\boldsymbol{R}$ : 표정 및 입, 턱 모양이 표현된 벡터를 저차원으로 압축하는 PCA-derived matrix
$\boldsymbol{s}$ : 표정의 형태(shape of facial pose)를 인코딩(encoding)하는 vector
$\boldsymbol{b_m}$ : 입(mouth) 영역의 모양을 표현한 appearance vector
$\boldsymbol{b_j}$ : 턱(jaw) 영역의 모양을 표현한 appearance vector


내비게이션 음성부터 인공지능 아나운서까지, 음성 합성 기술은 우리의 일상생활 곳곳에 잘 녹아있습니다.
여기서 멈추지 않고 심층 신경망과 같은 딥러닝 기술을 적용하여 지금보다 더 사실적인 표현이 가능하도록 하고 있죠.
하지만 더욱더 인간과 흡사한 가상 인간을 만들려는 노력에 따라 ‘몸을 움직이는’ 가상 인간 개발에도 초점을 맞추게 되었는데요.
어떻게 가상 인간의 움직임을 만들어 내는지 다음 글에서 알아봅시다!



[각주]
[1] 매개변수를 의미하며, 여기서는 높낮이, 길이, 음의 세기, 음색 등의 음성 특징 나타낸다.
[2] 단어의 의미를 구별짓는 소리의 최소 단위
[3] 영상에서 ‘정지’ 화면의 단위

[참고문헌]
[1] Heiga Zen, Keiichi Tokuda, Alan W. Black, 「Statistical parametric speech synthesis」, Speech Communication, Volume 51, Issue 11, 2009, Pages 1039- 1064.
[2] Ausdang Thangthai, Ben Milner, Sarah Taylor, 「Synthesising visual speech using ynamic visemes and deep learning architectures」, Computer Speech & Language, Volume 55, 2019, Pages 101-119.
[3] Wolfgang Paier, Anna Hilsmann, Peter Eisert, 「Neural Face Models for Example-Based Visual Speech Synthesis」, Computer vision and Pattern Recognition, 2020.
[4] 박태훈(셀비스AI 개발자), ‘03.<음성합성이 뭐야?> 컴퓨터가 음성을 만든다’, 『딥러닝과 음성기술의 만남』, 2018. https://brunch.co.kr/@oldamigo9/4
[5] 공돌이의 수학정리노트, 2019.07.27., ‘주성분 분석(PCA)’, [인터넷 게시글], https://angeloyeo.github.io/2019/07/27/PCA.html



기획특집 ③ - 움직임을 만드는 기술, 3D Human Motion Estimation 편으로 이어집니다.

기획특집 ③ 보기

ALIMI 26기 신소재공학과 강아림

알리미는 언제나 열려있습니다. 고민이나 질문이 있는 친구들은 편하게 알리미에게 연락주세요!

기사 모아 보기
공유하기
목록