지도 학습

From Hidden Wiki
Jump to navigation Jump to search

알파고는 애초에 기보 데이터가 필요하지 않았다

  • #10882 2019-4-1 오전 6:28 [삭제]

알파고는 애초에 기보 데이터가 필요하지 않았다

근본부터 다른 '기계학습' 알파고와 '강화학습' 알파고 제로

2018.09.18

인공지능은 일종의 컴퓨터 프로그램입니다. 일반인에게는 '기계학습(머신러닝)'이라는 알듯말듯한 용어가 유행하지만, 사실 인공지능을 만드는 방식은 둘입니다. 하나는 사람이 일일이 코드를 짜는 거고(IBM 왓슨, 쿠쿠, 트롬 등), 다른 하나는 프로그램을 시켜 코드를 짜는 겁니다(알파고, 구글번역, 검색, 음성인식 등). 코드를 짜는 프로그램을 다른 말로 '기계학습 프로그램'이라고 합니다. (그림 참조.) 구글이 만든 '텐서플로(TensorFlow)'와 페이스북이 만든 '파이토치(Pytorch)'가 기계학습 프로그램의 대표주자입니다.

기계학습에는 크게 두 부류가 있습니다. '지도학습(Supervised Learning)'과 '강화학습(Reinforcement Learning)'이 그것입니다. '비지도학습(Unsupervised Learning)'이라는 것도 있지만, 아직 갈 길이 멀어서 제외했습니다. 기계학습은 '입력값'과 '출력값' 사이의 패턴, 상관관계, 연결규칙, 함수 등을 찾는 작업을 가리킨다고 요약할 수 있습니다.

지도학습에서 중요한 것은 데이터입니다. 지도학습에서 입력값과 출력값은 모두 우리가 정답을 알고 있는 데이터입니다.

지도학습은 아직 일어나지 않은 상황에서 '예측'과 '추천'을 가능케 합니다. 가령 아마존은 고객들이 생산한 수많은 클릭과 체류시간과 구매에 이르는 데이터를 갖고 있습니다. 그리고 지도학습을 통해 이 데이터로부터 연결패턴을 찾아냅니다. 당연히 고객이 선호할 만한 상품을 예측해서 추천해 주겠지요.

검색 결과를 추천해 주고, 번역 문장을 추천해 주고, 자동차 이동 경로를 추천해 주고, 가까운 기사를 추천해 주고... 이렇게 고객 만족을 통해 이윤을 극대화하는 겁니다.

"지도학습이 현실의 데이터로부터 연결규칙(pattern, function)을 찾아내는 과정이라면, 강화학습은 행동규칙(rule)이 정해진 플레이에서 최선의 수를 찾아내는 것을 목표로 합니다. 가령 중국 바둑 규칙에 따라 바둑을 둔다고 할 때, 매번 둘 때마다 승률이 가장 높은 를 찾아내는 것이지요. 아니면 스타크래프트에서 최선의 키보드-마우스 조작 방법을 찾는 작업이라 해도 좋습니다.

http://www.newstof.com/news/articleView.html?idxno=951


http://jqu6my2mlqp4zuui.onion/p?id=10882


인공 지능 (artificial intelligence, AI, A.I.)

기계 학습 (머신 러닝, machine learning)

지도 학습 (supervised learning)

강화 학습 (reinforcement learning)

비지도 학습 (unsupervised learning)