티스토리 뷰

카테고리 없음

튜링 테스트의 역사와 한계

미리별투어 2022. 12. 10. 18:59
반응형

튜링 테스트란?

튜링 테스트란? 튜링 테스트는 컴퓨터가 인간처럼 생각할 수 있는지 여부를 결정하기 위해 인공 지능에서 조사하는 방법입니다. 이 테스트는 튜링 테스트의 창시자이자 영국의 컴퓨터 과학자, 암호 분석가, 수학자 및 이론 생물학자인 Alan Turing의 이름을 따서 명명되었습니다. 튜링은 컴퓨터가 특정 조건에서 인간의 반응을 모방할 수 있다면 인공 지능을 가지고 있다고 말할 수 있다고 제안했습니다. 원래 튜링 테스트에는 세 개의 터미널이 필요하며 각 터미널은 물리적으로 다른 두 개와 분리되어 있습니다. 하나의 터미널은 컴퓨터에 의해 작동되고 다른 두 개는 사람에 의해 작동됩니다. 테스트 중에 인간 중 한 명이 질문자 역할을 하고 두 번째 인간과 컴퓨터가 응답자 역할을 합니다. 질문자는 지정된 형식과 컨텍스트를 사용하여 특정 주제 영역 내에서 응답자를 질문합니다. 사전 설정된 시간 또는 질문 수 후에 질문자는 어떤 응답자가 인간이고 어떤 응답자가 컴퓨터인지 결정하도록 요청받습니다. 테스트는 여러 번 반복됩니다. 질문자가 테스트 실행의 절반 이하에서 올바른 결정을 내리면 질문자가 인간 응답자와 마찬가지로 인간과 같은 것으로 간주하기 때문에 컴퓨터는 인공 지능을 가진 것으로 간주됩니다. 이러한 튜링 테스트의 역사를 잠깐 설명하자면 앞서 말했다시피 이 테스트는 1940년대와 1950년대에 기계 학습 을 개척한 Alan Turing의 이름을 따서 명명되었습니다 . Turing은 맨체스터 대학에 있을 때 Computing Machinery and Intelligence라는 1950년 논문에서 테스트를 소개했습니다. 그의 논문에서 Turing은 더 이미테이션 게임이라고 불리는 것에 대한 반전을 제안했습니다. 이미테이션 게임은 AI를 사용하지 않고 3개의 개별 방에서 3명의 인간 참가자를 포함합니다. 각 방은 화면과 키보드를 통해 연결되어 있으며, 한 방에는 남성, 다른 방에는 여성, 다른 방에는 남성 또는 여성 판사가 있습니다. 여성은 판사에게 자신이 남성이라고 확신시키려 하고 판사는 어느 쪽이 누구인지 유포하려고 합니다. 튜링은 AI, 인간 및 인간 질문자를 포함하도록 이 게임의 개념을 변경합니다. 그러면 질문자의 임무는 어느 것이 AI이고 어느 것이 인간인지 결정하는 것입니다. 과학 테스트의 형성, 많은 AI가 통과할 수 있었습니다. 첫 번째 프로그램 중 하나는 Joseph Weizenbaum이 만든 ELIZA라는 프로그램입니다. 하지만 튜링 테스트에도 한계는 존재합니다. 튜링 테스트는 특히 역사적으로 컴퓨터가 인간과 같은 지능을 나타내기 위해서는 질문의 본질이 제한되어야 했기 때문에 수년 동안 비판을 받아 왔습니다. 수 년 동안 컴퓨터는 질문자가 쿼리를 공식화하여 예 또는 아니오라고 대답하거나 좁은 지식 분야와 관련이 있는 경우에만 높은 점수를 받을 수 있었습니다. 질문이 개방형이고 대화식 답변이 필요한 경우 컴퓨터 프로그램이 질문자를 성공적으로 속일 가능성이 적습니다. 또한, ELIZA와 같은 프로그램은 완전히 이해하지 못하는 기호를 조작하여 튜링 테스트를 통과할 수 있습니다. John Searle은 이것이 인간에 필적하는 지능을 결정하지 않는다고 주장했습니다. 많은 연구자들에게 컴퓨터가 튜링 테스트를 통과할 수 있는지 여부에 대한 질문은 무의미해졌습니다. 컴퓨터 프로그램이 아닌 인간과 대화하고 있다고 누군가를 설득하는 방법에 초점을 맞추는 대신 진정한 초점은 인간과 기계의 상호 작용 을 보다 직관적이고 효율적으로 만드는 방법에 있어야 합니다. 예를 들어 대화형 인터페이스를 사용합니다. 하지만 튜링 테스트의 변형 및 대안이 존재하죠. 튜링 테스트를 보다 관련성 있게 만들기 위해 다양한 변형이 있었습니다. 이러한 예시는 다음과 같습니다. 먼저 역 튜링 테스트입니다. 인간이 컴퓨터가 컴퓨터가 아니라고 확신시키려는 테스트입니다. 이것의 예시는 바로 CAPTCHA입니다. 다음으로 전체 튜링 테스트입니다. 질문자는 물체를 조작하는 능력뿐만 아니라 지각 능력도 테스트할 수 있습니다. 그리고 최소 지능형 신호 테스트입니다. 참, 거짓 및 예, 아니오 질문만 제공됩니다. 많은 사람들이 튜링 테스트에 결함이 있다고 보기 때문에 튜링 테스트의 대안이 나중에 개발되었습니다. 이러한 대안에는 다음과 같은 테스트가 포함됩니다. 다음으로 The Marcus Test입니다. 텔레비전 쇼를 시청할 수 있는 프로그램이 쇼의 내용에 대한 의미 있는 질문을 받음으로써 테스트됩니다. 이어서 Lovelace Test 2.0입니다. 예술 창작 능력을 검사하여 AI를 감지하기 위해 만든 테스트입니다. 마지막으로 Winograd 스키마 챌린지입니다. 특정 형식으로 객관식 질문을 하는 테스트입니다. 그렇다면 오늘날 튜링 테스트는 어떻게 사용되고 있을까요? 튜링 테스트의 변형은 종종 AI에 대한 현재 이해에 더 적합하지만 테스트의 원래 형식은 오늘날까지 여전히 사용됩니다. 예를 들어서 Loebner Prize는 1990년부터 매년 심사위원단이 투표한 가장 인간과 유사한 컴퓨터 프로그램에 수여되었습니다. 경쟁은 튜링 테스트의 표준 규칙을 따릅니다. 이 상의 관련성에 대한 비평가들은 기계가 생각할 수 있는지를 진정으로 테스트하는 것보다 홍보에 관한 것이라고 종종 경시합니다. 2014년 튜링 사망 60주기를 기념하기 위해 레딩 대학교가 주최한 대회에서 13세 소년을 시뮬레이션하는 Eugene Goostman이라는 챗봇이 33%를 속인 튜링 테스트를 통과했습니다. 그리고 2018년 Google Duplex 는 7,000명의 군중 앞에서 전화로 미용사와 약속을 성공적으로 잡았습니다. 접수원은 그들이 실제 사람과 대화하고 있지 않다는 사실을 전혀 모르고 있었습니다. 일부 사람들은 앨런 튜링이 설계한 테스트의 실제 형식에 의존하지 않았음에도 불구하고 현대의 튜링 테스트 통과로 간주합니다. 일부 사람들은 OpenAI에서 만든 자연어 처리 모델인 GPT3 가 오늘날 우리가 가지고 있는 모든 기술의 진정한 형태로 테스트를 이길 가능성이 가장 높다고 생각합니다. 그러나 고급 텍스트 생성 기능이 있음에도 불구하고 많은 사람들은 기계가 무의미한 질문에 속아 답하도록 속일 수 있고 따라서 튜링 테스트 조건에서 어려움을 겪을 수 있기 때문에 기계를 비판했습니다. 오늘날 튜링 테스트의 관련성과 이를 기반으로 하는 경쟁의 타당성에 대한 많은 논쟁에도 불구하고 테스트는 여전히 AI를 논의하고 연구하기 위한 철학적 출발점으로 자리 잡고 있습니다. 우리가 계속해서 AI를 발전 시키고 인간의 뇌가 어떻게 기능하는지 더 잘 이해하고 지도 화 함에 따라 튜링 테스트는 지능을 정의하는 데 기초가 되며 생각하는 기계로 간주되기 위해 기술에서 무엇을 기대해야 하는지에 대한 논쟁의 기준이 됩니다. 지금까지 튜링 테스트의 역사와 한계에 대해서 자세히 설명해드렸습니다.

반응형
댓글