정치/경제/사회 게시판
번역 기계 놀이
다음은 『원영희 교수의 일급 번역교실』의 chapter 07에 나오는 예문이다. Google 번역기(http://translate.google.co.kr)를 이용해서 그것을 한국어로 번역한 다음, 그 번역문을 다시 영어로 번역하고, 그것을 다시 한국어로 번역하는 식으로 반복했다. 마지막으로 나온 결과가 참 가관이다.
The spring we were married my sister was pregnant. She telephoned from the hospital one evening in late April saying she was going into labor. I told her I’d be right over and dashed to tell Cliff.
“But if you leave, I’ll be stranded here without a car,” he objected.
“Cliff, she’s my sister. I have to be with her!”
“No!” he said. “You do what I tell you.”
“Please, this means a lot to me, I.” Cliff struck me across the face with such force that I fell to the floor. When I looked up, his eyes were glazed over with animal hate. But then they flooded with tears and he dropped to the floor to comfort me.
우리는 내 여동생이 결혼을했다 봄 임신했다. 그녀는 어느 날 저녁에 병원에서 4 월 하순, 그녀가 진통이 와서 말하는 전화. 전 그녀에게 줄 바로 이상 클리프에게 그랬어요.
"하지만 당신이 떠나면, 난 여기서 차없이는 꼼짝 못하게 될거야"고 반대했다.
"클리프, 그녀는 내 동생이야. 나는 그녀와 함께 해요! "
"안돼!"고 말했다. "당신은 내가 당신이 무엇을 말하지 않는거야."
"제발,이 많은 나한테 어떤 의미가, 나"클리프 얼굴 전체와 같은 강제로 나를 삼진 내가 바닥에 떨어졌다. 때, 그의 눈을 동물 증오에 유약을 바른 올라 보았다. 그런데 그들은 눈물로 홍수 그는 바닥에 나를 안위 하시 나 감소했다.
We were married last spring, my sister was pregnant. She's one evening in late April at the hospital, saying she was going into labor call. I give her more than it did to Cliff.
"But if you leave, I'll stop at nothing chaeopyineun here," he protested.
"Cliff, she is my sister. I'm with her!"
"No!" He said. "You tell me what you gonna do."
"Please, I have a lot of sense to me, and" Cliff faces, such as the full force struck me as I fell to the floor. When his eyes glazed up hatred and saw the animals. So they flood with tears, he fell to the floor, they comfort me do you.
우리는 지난 봄, 내 여동생이 임신 결혼했다. 그녀는 어느날 저녁, 4 월 하순에 병원에서, 그녀는 노동 통화 거라고 말하 잖아. 난 그녀에게보다 클리프 짓을 더.
"하지만 당신이 떠나면, 난 아무것도 chaeopyineun 여기에서 그만하겠다"고 항의했다.
"클리프, 그녀는 내 동생입니다. 난 그녀와 함께 해요!"
"안돼!" 그는 말했다. "당신은 어떻게 할 것인지 말해."
내가 바닥에 떨어졌다 "제발, 내가, 그리고 감각이 많다"클리프, 전군 같은 얼굴이 나를 당했다. 그의 눈은 증오를 글레이즈과 동물을 보았다. 눈물로 그래서 그들은 홍수, 그는 바닥에 떨어진, 내가 어떻게 그들이 편안하게.
We last spring, my sister married a pregnancy. She was one evening in late April at the hospital, she did say that Labor would call. Cliff, I did better than her.
"But if you leave, I will stop at nothing chaeopyineun here," he protested.
"Cliff, she is my sister. I'm with her!"
"No!" He said. "You tell me what to do."
I fell to the floor, "Please, I and a lot of sense," Cliff, my face was the same army. His eyes glazed and the animal saw the hate. So they flood with tears, he fell to the floor, how they comfort me.
우리는 지난 봄, 내 여동생이 임신을 결혼했다. 그녀는 어느날 저녁, 4 월 하순에 병원에서, 그녀는 노동이라고 부릅니다 뭐래했다. 클리프, 내가 그녀보다 더 않았다.
"하지만 당신이 떠나면, 난 아무것도 chaeopyineun 여기서 멈추지 않을 것"이라고 항의했다.
"클리프, 그녀는 내 동생입니다. 난 그녀와 함께 해요!"
"안돼!" 그는 말했다. "당신이 뭘해야할지 말해."
난 바닥에, "제발, 난 감각이 많지,"클리프, 내 얼굴에 같은 군인했습니다했다. 그의 눈을 윤기나는 동물을 싫어 보았다. 눈물로 그래서 그들은 홍수, 그는 바닥에, 그들이 어떻게 나를 안위 하시 나 감소했다.
초창기 인공 지능 연구자들의 오판
초창기 인공 지능 연구자들 중에는 컴퓨터가 인간이 하는 일이면 뭐든 다 하는 날이 조만간 올 것이라고 본 사람이 많았다고 한다. 저명한 인공 지능 연구자가 시각 메커니즘 만들기를 대학원생에게 숙제로 내 주었다는 이야기가 전설로 전해지고 있다. 그 전설이 사실인지는 모르겠지만 당시의 분위기를 잘 보여주는 일화다. 반면 21세기의 시각학자들은 인공 지능이 인간의 시각을 흉내 내는 일이 가까운 미래에는 거의 불가능에 가깝다고 생각한다.
초창기에는 곧 훌륭한 번역 기계가 나올 것이라는 예측이 많았다고 한다. 하지만 위에서 살펴보았듯이 아직 멀었다. 물론 돈을 내야 쓸 수 있는 더 좋은 번역기의 실력은 조금 더 낫겠지만 인간의 눈 높이에서 보면 도토리 키 재기다.
반면 인공 지능 체스의 경우에는 눈부시게 발전해서 Deep Blue가 이미 1997년에 세계 체스 챔피언을 이긴 적이 있다.
보통 사람들에게는 세계 체스 챔피언을 이기는 것이 보는 것이나 번역하는 것보다 훨씬 더 어렵다. 초창기 인공 지능 연구자들이 인공 지능의 발전 속도를 과대평가한 이유 중 하나는 아마 인간이 아주 힘들어하는 일 예컨대 미적분 문제 풀기를 컴퓨터가 이미 당시에도 잘 했기 때문인 것 같다. “인간이 어려워하는 것을 컴퓨터가 잘 하는데 인간이 쉽게 하는 것을 못할 이유가 무엇인가?”라고 생각했을 법하다.
인간에게 쉬울 뿐이다
다른 도구의 도움 없이 초음파를 이용해 “보는” 일이 박쥐에게는 아주 쉽다. 하지만 인간에게는 불가능한 일이다. 다른 도구의 도움 없이 하늘을 나는 일이 갈매기에게는 아주 쉽다. 하지만 인간에게는 불가능한 일이다. 초음파 이용이 박쥐에게 쉬운 이유는 그 자체가 쉽기 때문이 아니라 박쥐(정확히 말하면 박쥐의 직계 조상)가 그런 일을 잘 하도록 오랜 기간 진화했기 때문이다. 하늘을 나는 것이 갈매기에게 쉬운 이유는 그 자체가 쉽기 때문이 아니라 갈매기가 그런 일을 잘 하도록 오랜 기간 진화했기 때문이다.
인간은 많은 일들을 아주 쉽게 한다. 어떤 것들은 진짜 일 자체가 쉽기 때문일 것이다. 하지만 많은 경우 엄청나게 힘든 일임에도 인간이 쉽게 하는 이유는 인간이 그런 일을 잘 하도록 오랜 기간 진화했기 때문이다.
외국어만 잘 배우면 인간은 누구나 번역을 쉽게 한다. 물론 전문 번역가처럼 매끄럽게 번역하지는 못하고, 전문적인 내용일 때에는 번역을 못하는 경우도 있지만 일상적인 내용일 때에는 그럴 듯하게 번역한다.
인간이 이렇게 할 수 있는 이유는 엄청나게 복잡한 언어 처리 메커니즘 또는 언어 학습 메커니즘이 진화했기 때문이다. 인공 지능이 번역을 제대로 하도록 하기 위해서는 이 언어 처리 메커니즘들 중 많은 부분을 몽땅 만들어야 한다.
번역은 왜 어려운가?
얼핏 생각해 보면 번역 기계를 만드는 것이 별로 어려워 보이지 않는다. 외우는 것이야 컴퓨터가 인간보다 잘 하는 경우가 많다. 사전을 통째로 외우는 것이 인간에게는 사실상 불가능하지만 컴퓨터에게는 쉽다. 문법을 배우는 것도 별로 어려워 보이지 않는다. 컴퓨터는 상당히 복잡한 프로그래밍 언어를 “이해”해서 컴파일도 하고 실행도 한다.
만약 문법과 의미가 이분법적으로 칼 같이 나뉠 수 있다면 번역이 훨씬 쉬울 것이다. 컴퓨터는 해당 문장의 의미는 이해하지 못하더라도 문법만 파악해서 정확히 parsing(문장 해부)한 다음에 그대로 다른 언어로 옮기면 되기 때문이다. 하지만 parsing 과정에 의미론이 개입된다. 왜냐하면 두 가지 또는 그 이상으로 해석될 수 있는 경우가 많기 때문이다. 프로그래밍 언어는 이런 식으로 애매하게 해석될 수 없도록 설계되었다. 하지만 인간이 쓰는 자연어는 그렇지 않다. 따라서 의미를 정확히 알지 못하면 parsing조차도 제대로 할 수 없다.
게다가 한 단어가 여러 가지 의미로 쓰인다. 사전을 보면 10 개 이상의 항목으로 뜻 풀이를 해 놓은 경우도 많다. 어떤 단어가 동사로 쓰이기도 하고 명사로 쓰이기도 하기 때문에 상황은 더 복잡해진다. 한 단어가 뜻할 수 있는 여러 의미들 중 정확한 것을 선택하기 위해서는 문장의 의미를 파악해야 한다. 그리고 문장의 의미를 정확하게 파악하기 위해서는 해당 문단 또는 해당 책 전체의 맥락을 파악해야 한다.
인간이 이 모든 것을 그럴 듯하게 해낼 수 있는 이유는 엄청난 양의 상식과 전문 지식이 있기 때문이다. 어려운 전문 서적의 경우에는 해당 분야를 공부하지 않은 사람이 번역할 수 없다. 그 이유는 문장 해석에 전문 지식이 필요하기 때문이다.
기계 번역은 불가능한가?
컴퓨터가 제대로 번역하기 위해서는 단어의 의미와 문법에 대한 지식뿐 아니라 엄청난 양의 상식과 전문 지식이 있어야 한다. 다른 말로 하면 인간처럼 생각할 수 있어야 한다. 따라서 번역 기계의 완성은 인공 지능의 완성과 동등하다고 해도 큰 과장은 아니다.
결국 “기계가 번역할 수 있는가?”라는 문제는 “기계가 인간만큼 똑똑해질 수 있는가?”라는 문제와 거의 동등하다. 따라서 번역가들은 번역 기계가 자신의 일자리를 빼앗을 것이라고 특별히 걱정할 필요가 없다. 번역기가 번역가의 일자리를 빼앗을 때가 되면 모든 직종의 일자리가 컴퓨터에게 빼앗길 것이다.
하지만 나는 기계 번역이 가능하다고 본다. 그 이유는 컴퓨터가 결국 인간보다 더 똑똑해져서 물리학 연구도, 작곡도, 도덕 철학 연구도, 소설 창작도 인간보다 더 잘 날이 올 것이라고 믿기 때문이다.
이것은 인간의 지적 능력을 과소평가하는 것이 아닌가? 인간이 하는 지적인 것들이 너무 낮은 수준이라서 금방 흉내 낼 수 있다고 보는 것은 아닌가? 아니다. 오히려 나는 인간의 엄청난 지적 능력을 믿고 있다. 인간의 지능, 적어도 극소수 천재들의 지능은 너무나 뛰어나서 인간의 지적인 능력을 복제하는 엄청난 일도 해 낼 수 있을 정도라도 나는 믿는다.
2010-01-30
일단 인공언어(프로그래밍)들 간의 번역은 잘 되고 있습니다.
인공언어란 그 제약규칙이 심해서 조금의 오류를 허용하지 않습니다.
그런데 자연언어란 그 구문상이나 의미론적인 구성에 제약이 거의 없어(예를 들면 시...)
그것을 기계가 번역하는 것은 전 불가능(적어도 저와 저 자식들 세대)에는 불가능하다고
봅니다. 여기서 불가능이란 지금의 고급 번역자들이 뽑아내는 수준 정도입니다.
"가능하다" 또는 "언젠가는 가능하다"라는 의견에는 좀 다른 생각이 듭니다.
"언젠가 불가능할 무언가"를 찾아내기란 무척어렵기 때문입니다.
50억년이 지나면 태양이 부풀러 올라 지구는 사라질 것이라고 봅니다.
그래서 그 전에 지구인은 다른 행성을 찾아가야만 할 것인데요,
그 과학 프로그램의 나래이터의 말에 의하면
"50억년간 지구인의 과학수준은 지금 상상이상으로 발전할 것이기 때문에, 그것은 충분히 가능..."
이라고 주장했습니다.
가장 가까운 안드로메다 은하까지 50광년(대략) 된다고 합니다... 뭐 웜홀을 통해서 우주공간을
접어서 가면 100만 광년에 저 너머의 우주에 단번에 도착할 수 있다고 합니다. 이론적으로....
그러나 저는 인간의 우주기술은 거의 한계에 와있다고 봅니다... 조금씩
나아지지만 1광년을 인간이 지나갈만한 기술은 인간의 두뇌를 외계인과 접붙히지 않고는 불가능하다고 생각합니다.
과학발전에는 항상 saturation이 있습니다. 조금씩 발전에 발전은 하겠지만, 그 정도가 일정 이상을
넘을 수 없는데 저는 한표 던집니다. s = 1 + (1/2)^2 + (1/2)^3 ..... 계속더하면 s는 증가하지만 결코 2를 넘을 수는 없습니다.
암을 한번 보시면, 암에 관한 논문이나 지식을 엄청나게 쏟아지지만
1970년대의 예측과 달리(2000년 이전에 암의 정복을 예견), 결국 알게 된 것은 "암의 매커니즘이 엄청 복잡하고
예측불가능(unpredictable)하다"는 것에 불과한 META-지식만 늘어날 뿐이라고 생각합니다.
저는 기계가 지금의 번역가(고급)들이 하는 정도의 번역을 할 수 없다는데 한표 던집니다. 그건 그것을 잘 된 것이나
아닌 번역이다를 판단하는 인간의 불확정성 때문에 원천적으로 불가능하다고 봅니다.
이렇게 하면 가능할 것도 같습니다.
우리가 사용하는 모든 자연어 문장을 기록하는 도구(프로그램)가
입력된 문장을 검사해서 그것이 "허용된 범위" 밖의 구문(syntax)와 의미를 가지면 아예 기록이 안되게
하는 것입니다. Super-HWP? 영어도 마찬가지... 이런 제약이 없다면 번역(매끄러운)은 불가능하다고 생각합니다.
----------
제 이야기가 좀 오락가락했네요...죄송^^
잘 읽었습니다.
1) 오랜 시간이 걸리겠지만 저는 인간수준의 번역기를 인간이 개발 할 수 있을 것이라 생각합니다.(기술적으로)
그러나 기존의 기계개념과는 완전히 다른, 유전자 공학(가령 인간의 뇌세포를 인공배양하는 등의 방법으로)을 활용
해야만 가능하지 않을까 생각합니다.
기술적인 문제뿐 아니라 윤리적인 문제도 있으므로 실제로 만들어 질수 있을지는 모르지만 가능은할거란 말씀.
한 천년쯤 지나면 ?
2) 약간 방향은 다르지만
영화 아바타를 보며 가장 감탄한 부분이 영화를 만든 사람의상상력인데요.
특히 인상 깊었던 것은 나비족이 다른 생명체들(짐승, 나무등)과 접속하는 장면들 이었습니다.
저는 인간들이자연을 관리하는 방향이 아니라 자연과 공생하는 쪽으로 계속 진화한다면
유사한 형태의 자연과의 소통(정보교환)이 가능 할지도 모른다는 생각을했었습니다.
(물론 자연역시 자연대로 인간과 공생하는 쪽으로 진화하고)
한 일억년 지나면 ?
3)좀더 상상의 나래를 펼쳐보면^^
인간이 1광년을 여행하는 것도 가능할지 모른다는 생각입니다.
물론 3차원적 공간에서의 거리를 여행하는 것은 불가능하다 생각합니다만
시간이라는 4차원을 뛰어넘는, 5차원 또는 6차원의 존재를 발견한다면 말이죠.
저는 우리가 아는 것 보다 훨씬 많은 차원(?)이 존재한다는 생각입니다.
많은 대부분의 과학자들은 우주의 탄생, 즉 시간의 시작을 "빅뱅"이라고하지요.
그러면 빅뱅 이전의 우주 또는 시간은 ?
"블랙홀"이라 이름붙인 현상이 존재한다는 것도 확인하였지요.
그럼 블랙홀로 빨려들어간, 시간을 포함한 그 모든 것은 어디로 갔을까요 ?
5차원이나 6차원을 규명할 수 있다면, 그 통로를 따라 1 광년을 "질러"갈수 있을지도....
한 일억년 지나면 ?
아, 한 일억년쯤 후라면.....
- 구글 트랜스는 공개형 번역 프로그램 중에서는 가장 우수한 프로그램이라고 평가하고 싶습니다.
'무슨 공개 프로그램이 저따구야?'라는 의문을 품을 분들이 다수 계실 수 있다고 생각되지만.... 어쨌든 그렇습니다.
왜냐하면, 구글은 자체적으로 더 나은 번역 제안을 계속적으로 받아들여 번역 결과를 좀 더 그럴싸하게 다듬는 데 심혈을 기울이고 있기 때문입니다.
디테일한 내부 로직은 알 수 없지만, 신경망 혹은 이에 준하는 어떤 알고리즘을 동원해서 관용어구나 언어간의 특정한 문장 패턴을 학습하려 하는 듯합니다.
- 딥 블루의 경우는 좀 특이한데, 단순한(실제로 보면 그다지 단순하지도 않습니다만...) min-max 분석론을 통해서 7수인가 정도 앞에서 조합 가능한 최적의 해를 제시합니다. 당연히 인간의 인지 한계로는 거의 무한이나 다름없는 제승의 케이스가 조합이 되는데, 딥 블루는 수십 대의 컴퓨터를 병렬로 엮은 구조를 통해 연산 속도를 극복했습니다. 체스 프로들의 기보가 보통 오프닝 포함 12수 이내에서 끝난다는 점을 감안하면, 7수만 완벽하게 체스판을 장악할 수 있다면 인간이 딥 블루를 이기는 것은 불가능합니다.
그러나 이는 체스판에서 움직일 수 있는 기보의 수가 제한적이기에 가능한 시나리오입니다.
만약 딥 블루가 한 수 더 완벽한 판세를 짜기 위해서는, 수백 대의 딥 블루를 다시 병렬화해야 합니다!
알고리즘적인 측면으로서는, 딥 블루보다는 오히려 퍼스널 컴퓨터 한 대로 어지간한 시리어스 아마추어를 이길 수 있는 체스 알고리즘이 더 의미있다고 볼 수 있겠습니다.
여담으로, 게임 경험이 없는 사람 입장에서 얼핏 도찐개찐으로 여겨질 수 있는 바둑의 경우, 컴퓨터가 사람을 이길 수 없습니다. 매 수마다 발생하는 선택지(이를 '너비'라고 합니다)가 체스에 비해 비약적으로 크기 때문입니다. 게다가 말이 잡아먹히면 절로 선택지가 줄어드는 체스와 달리 바둑은 꼭 그렇지만도 않기 때문이죠(상대 돌을 잡아먹고 집을 만드는 경우). 그래서 대부분의 공개 또는 상용 바둑 프로그램은 컴퓨터가 합리적인 시간 안에 연산 가능한 한계점에서 악수를 거르고 선수를 남겨 다시 선수들을 기준으로 판세를 예측합니다만, 이는 greedy한 solution으로 절대 최적의 수를 보장할 수 없습니다.
- 프로그래밍 언어에서도, 같은 단어 토큰이 다른 의미의 연산으로 사용되는 경우가 많습니다. 단순히 C-style로 코딩된 프로그램상의 주석을 제거하는 방법만 해도, 한 스테이지만에 정확히 주석을 제거하는 정규식을 만들기가 쉽지 않습니다. 따라서 우리는 언어를 parsing하는데 오토마타를 동원합니다만, 프로그램 언어는 얼핏 복잡해 보여도 이 언어를 parsing하는 BNF decision-tree는 의외로 단순한 편입니다. 만약 영단어의 'go'나 'take'같은 단어를 적절하게 매칭하기 위해서는, 단순히 한국어에 대해서만도 폭발할 듯한 규모의 의사결정 트리가 필요할 것입니다. 의사결정 트리를 작성하는 것은 차치하고서라도, 이를 다시 어순에 맞게 배열하는 것은 또 다른 문제입니다.
언어학에 대한 지식이 습자지마냥 얕아서 자세히는 모르겠사오나, 언어의 기본 분류에 굴절어, 교착어, 고립어... 등등 다양한 패턴이 있는 것으로 압니다. 각 언어 유형에 대해서는 전혀 다른 방법론적 해석이 요구되며, 특히나 한국어와 같은 알타이어족, 교착어종에 대해서는 속된 말로 답이 없는 수준입니다. (상용 형태소 분석기만 해도 엄청난 돈이 되는 세상이거든요)
- 수학 또는 전산학에서 종종 등장하는 NP-Complete라는 용어가 있습니다. 표현력도 짧고 시간상 문제도 있어 이걸 다 옮겨 적지는 못하겠으나, 한마디로 '안 풀리는 문제'라고 간주하면 얼추 맞습니다(http://ko.wikipedia.org/wiki/NP-%EC%99%84%EC%A0%84). TSP(여행하는 판매원 문제)같이, 그래프 유형에 속한 많은 문제들이 NP-Complete의 대표적인 문제입니다.
신기하게도, 사람들은 종이와 펜만 있으면 어느 정도 규모의 NP-Complete 문제를 풀어냅니다. 100개의 세계 유명 도시를 관광하려 하는데, 어떤 코스로 여행하면 가장 짧게 다녀올 수 있는가? 라는 문제는, 사람의 경우 한 이틀 식음을 전폐하고 이리저리 머리를 굴리다 보면 최적은 아니더라도 최적에 거의 준하여 비용적인 측면에서 그리 손해볼 것 없는 결과를 도출합니다. 그러나 고급 컴퓨터 언어 중 가장 빠른 편에 속한다는 C로 이 문제를 코딩하여 돌려서 일주일 이내에 최적해를 찾는다면, 당신은 꽤 코딩을 잘 하는 편에 속합니다 (^^*)
전산학자들에게 이러한 NP-Complete 문제가 좌절스러운 이유는, 1.5년만에 연산장치의 속도가 2배씩 뻥찐다는 속칭 '무어의 법칙'만 믿고 달리기에 복잡도가 너무 높다는 점입니다.
오늘날 푸는데 1년이 걸리는 문제를 6년간 기다려 2^4 = 16배 빠른 속도로 풀 수 있게 되었다고 합시다. 이제 이 문제는 더이상 1년씩 기다리지 않아도, 단지 20일가량만 소요하면 풀 수 있는 문제가 됩니다. 하지만 동일한 문제에 선택지만 하나 더 붙여놓았더니 갑자기 200년짜리 문제로 돌변한다면?
물론 아직 희망은 있습니다.
모든 P=NP라는 것을 증명할 수만 있다면... (먼산)
- 글이 길었습니다만, 말하고자 하는 요지는, 인공'지능'이란 단어의 생김새 때문에, 일반인에게 있어 인공지능 분야는 종종 오해되는 경향이 있습니다. 많은 공상과학 영화, 소설 등이 이를 잘 반영하고 있으며, 일부 양심을 말아드신 엔지니어들께서는 인공지능이란 단어를 맹렬히 팔아먹어서 지갑을 배불리기도 합니다. 하지만 AI는 자아를 가지는 컴퓨터를 의미하는 것이 아니며, 인간 또는 동물의 인지 체계 중 파악 가능한 부분만을 발췌하여 수학적으로 응용한 기제에 불과합니다. 이미 80년대 초중반에, 컴퓨터로 자아 비스므리한 걸 만들어 보겠다는 시도는 모두 떡실신당했습니다.
만약 주위에 전산을 전공하면서, '우리가 모르는 어느 외딴 연구실 지하실에는 자아를 가진 컴퓨터가 존재할거야...'라고 중얼거리는 친구가 있다면, 사랑을 담아 싸다구를 날려줍시다 ^^
그럼.
정치/사회게시판 최신댓글