데이터 과학

From Hidden Wiki
Revision as of 12:22, 2 July 2019 by Code (talk | contribs) (asdf)
Jump to navigation Jump to search

데이터 과학 (data science)이란, 데이터 마이닝 (data mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.[1]

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 계산기과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 과학을 연구하는 사람을 데이터 과학자라고 한다.

튜링상을 수상한 짐 그레이 (Jim Gray) 박사는 데이터 과학은 과학의 네번째 패러다임으로 정의하고 과학(경험, 이론, 계산, 그리고 이제 데이터)에 관한 모든 것이 바뀌고 있는데 이유는 정보기술과 데이터 범람 (data deluge) 때문이라고 주장했다.

데이터 과학은 생물학, 의학, 공학, 사회학, 인문과학 등의 여러 분야에 응용되고 있다.


활용

사회과학에서 많이 쓰이는 통계학 프로그램 SPSS 필요한 사람은 아래 링크에서 받아라.

  • #12611 저작권 고소미 조심 2019-6-27 오전 0:20 [삭제]

사회과학에서 많이 쓰이는 통계학 프로그램 SPSS 필요한 사람은 아래 링크에서 받아라.

IBM SPSS Statistics 25.0 (x64) Multilingual + Crack [SadeemPC] Torrent | 1337x

https://1337x.to/torrent/2597772/IBM-SPSS-Statistics-25-0-x64-Multilingual-Crack-SadeemPC/

토런트 링크니까 트리블러로 받아도 되고, 그냥 받아도 되고. 설마 이런 것까지 IP 주소 채증해서 한국 IBM에서 고소하지는 않겠지. 판타지무협 소설 작가들은 토런트 공유로 고소 많이 한다고 하지만.


1: SPSS 자체가 Statistical Package for the Social Sciences의 약자임

        [삭제] 2019-6-27 오전 0:22


2: 통계학 전공자들은 오픈 소스 소프트웨어R 많이 쓰고, 공학 전공자들은 손에 익숙한 프로그래밍 언어파이썬 많이 쓰고. 인문학, 예체능에선 대학원 논문 쓸 때조차도 통계학 잘 안 쓰고. 자연과학 분야에선 SPSS, R, 파이썬 아무 거나 쓰는 것 같고. 심지어 MS Excel 쓰는 사람도 있으니까. 리브레 오피스 Calc도 기본적인 통계 함수 계산하고 그래프 그리고 하는 건 다 되니까.

        [삭제] 2019-6-27 오전 0:26


3: >2 인문학언어학 등 일부 분야를 중심으로 과학연구방법론통계학을 도입하기 시작했으니까. 아직도 인문예체능실험, 통계, 이중맹검, 실험군과 대조군, 플라시보 효과, 인과관계와 상관관계, 신뢰도와 타당도연구 방법론이랑은 담을 쌓은 교수들이 많지만.

        [삭제] 2019-6-27 오전 0:32


4: >3 한의학이 비판 받는 이유 중에 하나가, 출판된 논문들에 쓰인 연구 빙법론 중에 엉터리로 잘못 쓰인 게 많아서. 물론 의학이나 컴퓨터 공학 논문들도 통계학 전공자들이 까는 경우가 많지만. 통계학이나 머신 러닝에 대한 제대로 된 이해 없이 그냥 막 적용한다고. 각 상황에 맞춰서 모델을 세우고 거기에 맞는 기법을 사용해야 하는데.

        [삭제] 2019-6-27 오전 0:35


6: >4 빅 데이터도 각 데이터별로 적하한 모델이 있고, 뭘 적용할지가 달라져야 하는데, 자연과학, 공학, 의학 전공자들이 막무가내로 아무 데이터나 막 돌려서 엉터리 결과 뽑아낸다고. 진짜 최악은 데이터 자체가 딥 러닝을 돌릴 수 없는 주가 데이터 등에 인공 지능을 적용하는 금융 분야 멍청이들.

        [삭제] 2019-6-27 오전 0:41


7: >6 인공 신경 망 모델은 바둑 데이터나 기후 데이터에나 적용하는 거지, 주가 흐름에는 적용할 수 없는 건데.

        [삭제] 2019-6-27 오전 0:43


14: >2 R통계 프로그램이기도 하지만, 파이썬처럼 스크립트프로그래밍 언어처럼도 쓸 수 있지.

        [삭제] 2019-6-27 오전 2:00


5: 한의학에서는 수백년 전에 쓰던 동의보감 같은 의학 서적도 아무 생각없이 가져다 막 쓰니까. 검증 안 하고. 의학 분야에서 수백년전 의학 책에 나온대로 매독 환자에 수은 쓰고 그러면 감옥 가지. 한의학은 동의보감대로 중금속을 쓰든 뭘 쓰든 제재가 없지만. 상식적으로 몇 백년 전 의학 책은 문화재로서의 가치만 있지, 현재도 그걸로 진단하고 처방을 내린다는 건 살인 행위나 다름 없지.

        [삭제] 2019-6-27 오전 0:38


8: >>12612 SPSS magnet 주소

        [삭제] 2019-6-27 오전 0:51


9: 의학계와 데이터 사이언스 / 얼마전 의학 연구직으로 있는 학창 시절 친구를 만났다. 자기네가 데이터 작업을 하고 있는데, 여기에 머신러닝인지 인공지능인지라는걸 쓰면 뭔가 좀 더 획기적인 정보를 찾아낼 수 있냐고 묻더라. 논문을 한 번 읽고, 두 번 읽고, 세 번 읽고, 아무리 생각해봐도 별 대단할게 없는 사회학자들 데이터 리서치하는 수준의 정보들인데, 여기에 머신러닝을 어떻게 써보겠다는건지 잘 이해가 안 되더라.

        [삭제] 2019-6-27 오전 0:55


10: >9 Pabii 수업 시간에 계속 주장하는대로, 데이터에 Non-linear 패턴이 없으면 머신러닝이라는 계산 작업은 아무런 의미가 없다. Linear 관계를 찾는 작업, 특히 데이터 샘플이 랜덤 오차를 갖고 있는 경우라면 단순한 OLS가 최적의 Estimation 방법이기 때문이다. https://blog.pabii.co.kr/expect-too-much/

        [삭제] 2019-6-27 오전 0:57


11: >>12614 Q: 야, 그 알파고에 썼다는 딥러닝이라는거, 그거 주식 가격 예측하는데도 쓸 수 있지 않아? A: 어차피 다 통계 모델들이니까 어디든 다 쓸 수야 있겠지. 포인트는 주식 가격 예측하는데 무슨 데이터 쓰느냐 아니겠냐.

        [삭제] 2019-6-27 오전 1:31


12: SPSS로 할 수 있는 걸 굳이 Python 코드로 쳐야되냐? “데이터 분석한다는 석사, 박사 나온 사람들이 우리회사에서 하는 일이 말야, 그냥 우리가 학부 때 SPSS로 숙제 내던 걸 그냥 Python 이나 R 코드로 치는 수준 밖에 안 되던데? 진짜 그게 다야?”

        [삭제] 2019-6-27 오전 1:55


13: >12 왜 실리콘 밸리에서 R이나 Python 같은 Script형 언어를 할 수 있는 걸 Data Scientist의 기본 스킬셋이라고 생각할까? SAS나 SPSS로 못하는 작업, 그런 통계 패키지로 돌려보기에는 매우 귀찮고 어려운 작업들을 Script형 언어로는 쉽고, 빠르고, 더 체계적인 방식으로 처리할 수 있다는 사실을 알기 때문이다. https://blog.pabii.co.kr/spss-why-python/

        [삭제] 2019-6-27 오전 1:56


15: 행님덜 좋은장보 감사혀요

        [삭제] 2019-6-27 오전 2:40


16: >15 인공 지능, 딥 러닝, 빅 데이터, 데이터 사이언스, 통계학 입문하기 제일 쉬운 게 엑셀이나 리브레 오피스 '칼크'지. 그 다음이 SPSS고. R이나 파이썬이 가장 어렵고.

   -통계     [삭제] 2019-6-27 오후 8:48


17: 요즘에 심층 학습 뜨잖어? 많이들 공부해서 많이 벌자~

        [삭제] 2019-6-28 오전 5:05


18: >17 남한에선 프로그래머 연봉이 해봤자 1억이지만, 구글, 패이스북 같은데 자율 주행차 연구 등을 위해 채용되는 인고유지능쪽 프로그래머들 연봉은 40억, 50억 받는 사람들도 꽤 되더라. 미국한국은 자릿수 자체가 다름. 그리고 한국은 프로그래머로 몇년만 일하면 다들 관리직으로 가서 정말 숙련된 고급 프로그래머가 없는 반면에, 미국은 정년 퇴직 때까지 프로그래머로 일해서 운영 체제 제작도 가능한 고급 프로그래머도 많고.

        [삭제] 2019-6-28 오전 5:12


19: >18 남한에서는 어떤 프로그래머라도 직급이 올라가면 무조건 관리직에서 직원 관리 업무와 서류 업무만 해야 함. 관리직까지 못 올라가면 사표 쓰고 나가야 하는 거고. 그래서 경력 오래된 실력있는 프로그래머가 없지. 그리고 정부 사업 등에서 프로그래머 실력에 따라 인건비를 지급하는게 아니라, 자바 개발자 3년차 이런 식으로 계산하니까 연차만 쌓였지 실력 없는 프로그래머들이 많은 거고. 애초에 IT 업종은 자격증 따위 아무도 안 보는데, 쓸데없는 자격증이 너무 많음.

        [삭제] 2019-6-28 오전 5:17


20: >19 특히 정부 SI 사업에서 기사 자격증 있으면 더 고급 인력으로 쳐서 돈 더 주고 이런 것부터 폐지해야함. 어차피 기사 시험이란게 덤프 외워서 따는, 실무 능력과 관련 없는 무쓸모 자격증이지만. 심지어 SI 업종에서는 그나마 합격률이 낮아서 난이도도 어느 정도 있고, 실기 시험도 있는 정보 보안 기사 같은 것도 아니고, 대가리가 장식만 아니면 누구나 붙는 합격률과 난이도를 자랑하는데다가 실기 시험도 사실상 필기 시험인 정보 처리 기사 따위나 따고 있음.

        [삭제] 2019-6-28 오전 5:21


21: >20 정보처리 기사도 옛날처럼 실기 시험을 실제 프로그래밍 작업으로 내야지, 지금처럼 실기 시험도 필기 시험으로 칠 거면 뭐하러 실기 시험이 존재하냐? 그리고 그런 실무 능력 하나도 없는 자격증을 도대체 어디다가 쓸 수 있는데?

        [삭제] 2019-6-28 오전 5:24


22: SPSS, R, 파이썬은 인터넷에 사용 방법 무료 인강도 많고, 책으로도 많이 출판돼있다. 사진이랑 글로 설명한 자료도 많고, 인터넷 검색만 해보면 무료 학습 자료 많읍.

        [삭제] 2019-6-28 오후 9:54


23: 지식처리와 통계


[http!]http://www.kocw.net/home/search/kemView.do?kemId=1148354 언어와 통계


[http!]http://www.kocw.net/home/search/kemView.do?kemId=1182905 Excel, SPSS, R 쓰는 방법인데 무료 인강치고는 괜찮은 것 같네.

   -통계학 배우자     [삭제] 2019-6-29 오전 1:25


24: >23 한국외국어대학교 언어인지과학과 전종섭 교수 강의임.

        [삭제] 2019-6-29 오전 2:17


25: 파이썬 처음 쓰면 소스 코드 에디터를 뭘 쓸지부터 고민일텐데 Visual Studio Code나 Sublime Text같은 거 많이 씀. ST는 무료이지만 소스 코드가 비공개고, VSC는 오픈 소스지만 머이크로소프트에서 만들었고. 그래서 Red Hat Enterprise Linux의 소스 코드로 만든 CentOS처럼 VSC의 소스 코드로 만든 VSCodium도 많이 쓰지.

        [삭제] 2019-6-29 오전 4:13


26: >25 Red Hat에서 만들어도 저 지랄인데, 마이크로소프트에서 만들었다고 하면 싫어할 사람들이 더 많으니까. 그리고 MS에서 몇 가지 사용상 제약도 걸어놨고.

        [삭제] 2019-6-29 오전 4:15


27: >26 텍스트 에디터기만 하면 소스 코드 편집도 가능하니까 메모장 써도 되긴 하지만, 그런 편의 기능이 거의 없는 단순한 툴을 쓰는 사람은 거의 없지. VSCodium같은 건 리눅스, 윈도우즈, 맥OS 모두 지원하고.

        [삭제] 2019-6-29 오전 4:19


28: >27 리눅스 사용자는 https://vscodium.com/ 보고 설치하고, 윈도우즈 사용자는 https://github.com/VSCodium/vscodium/releases 에서 VSCodiumUserSetup-x64-1.35.1.exe로 다운로드 받으면 됨. ia32나 win32는 32비트, x64는 64비트, VSCodiumSetup은 컴퓨터에 있는 모든 사용자용, VSCodiumUserSetup은 현재 로그인한 사용자 한 명용.

   -VSCodium     [삭제] 2019-6-29 오전 4:37


29: >28 VSCodiumUserSetup이 더 낮은 권한을 요구하고, 개별 설정이 따로 저장되므로 이쪽 설치를 권장하는 거 같네. https://stackoverflow.com/questions/51928174/what-is-vscode-user-setup-for-windows 이건 VSCode용 설명이긴 한데, 어차피 VSCodium도 소스 코드는 거의 동일하니까 이 설명이 똑같이 적용됨.

   -VSCode     [삭제] 2019-6-29 오전 4:39


35: >29 VSCodiumSetup 대신에 VSCodiumUserSetup 깔면 된다.

        [삭제] 2019-6-30 오후 9:34


36: >35 VSCodiumSetup-x64-1.35.1.exe 대신에 VSCodiumUserSetup-x64-1.35.1.exe 설치하면 된다.

        [삭제] 2019-7-2 오전 12:17


30: SPSS 개인용 라이선스 가격이 400-600만원이나 하니까, 한국 IBM에서 충분히 저작권법 위반 단속할만 한데? 안전하게 트리블러로 한 번 우회해서 받는 게 낫지 않냐?

   -Tribler     [삭제] 2019-6-29 오전 4:41


31: 과거에 AI 주식투자펀드 있었는데 결국 손실만 존나게 나고 사라졌다. 뭐 딥러닝이면 회사 전망이나 가치에 관해서 혼자서 수집하고 분석해서 투자하는 프로그램 만들면은 잘될수도 있긴하겠다 근데 주식시장은 변수가 존나 많지않냐?

        [삭제] 2019-6-29 오전 4:47


32: >31 >>12614 보면 주가 시장 가격 그래프를 데이터로 넣으면 미래 가격 예측을 할 수 없고, 마트 주차장 항공 사진 등을 데이터로 넣으면 예측 가능하고. 어느 데이터를 넣느냐가 중요하다고 함.

        [삭제] 2019-6-29 오전 4:51


33: 학부 기준으로 얘기하면 엑셀은 생명과학과 같은데서 많이 쓰고, SPSS는 심리학과 같은 사회과학 대학에서 많이 쓰고, R은 통계학과에서 많이 쓰고, 파이썬은 컴퓨터 공학과에서 많이 쓰고. 단, 사회과학 같은 과학 흉내만 내는 유사 과학이더라도 대학원생이나 교수급은 SPSS 대신에 R 쓰는 경우도 많음.

   -문돌이는 유사 인류     [삭제] 2019-6-30 오전 2:12


34: >33 자연과학대에서 제일 수학도 못 하고, 과학 같지도 않은 유사 과학이라고 까이는 생물학도, 심리학같은 "진짜 유사 과학" 하는 사회과학 놈들에 비하면 진짜 과학이지.

        [삭제] 2019-6-30 오전 2:15

http://jqu6my2mlqp4zuui.onion/p?id=12611


SPSS magnet 주소

  • #12612 SPSS magnet 주소 2019-6-27 오전 0:50 [삭제]

>>12611 IBM SPSS Statistics 25.0 (x64) Multilingual + Crack [SadeemPC] Torrent | 1337x

https://1337x.to/torrent/2597772/IBM-SPSS-Statistics-25-0-x64-Multilingual-Crack-SadeemPC/

magnet:?xt=urn:btih:20897C12A9A6BDB3066CAE78FBBAD76F68FE0714&dn=IBM+SPSS+Statistics+25.0+%28x64%29+Multilingual+%2B+Crack+%5BSadeemPC%5D&tr=http%3A%2F%2Fbigfoot1942.sektori.org%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker2.wasabii.com.tw%3A6969%2Fannounce&tr=http%3A%2F%2Fbt.artvid.ru%3A6969%2Fannounce&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A80%2Fannounce&tr=http%3A%2F%2Fannounce.torrentsmd.com%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker.trackerfix.com%2Fannounce&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A80%2Fannounce&tr=udp%3A%2F%2Fexplodie.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fmgtracker.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fasnet.pw%3A2710%2Fannounce&tr=udp%3A%2F%2Ftracker.mgtracker.org%3A2710%2Fannounce&tr=udp%3A%2F%2Ftracker4.piratux.com%3A6969%2Fannounce&tr=udp%3A%2F%2Ftracker.trackerfix.com%3A80%2Fannounce&tr=udp%3A%2F%2Ftracker.pomf.se%3A80%2Fannounce&tr=udp%3A%2F%2Ftracker.zer0day.to%3A1337%2Fannounce&tr=udp%3A%2F%2Ftracker.leechers-paradise.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fcoppersurfer.tk%3A6969%2Fannounce


1: >>12611 사회과학 전공이라 교수가 SPSS 고집하는 거 아니면 SPSS 대신에 Python이나 R 써라.

        [삭제] 2019-6-27 오전 2:03


2: >1 사회과학 교수가 SPSS 쓰는 건 문과 교수한테는 Python이나 R같은 프로그래밍 언어가 너무 어렵기 때문이지. SPSS는 사실 MS Excel에서 조금 업그레이드 된 수준이라.

        [삭제] 2019-6-27 오전 2:19


3: SPSS: MS 엑셀과 유사해 보이기 때문에 진입 장벽이 낮지만 점점 STATA나 R 등이 인기를 끌고 있어서, 이 바닥에서도 통계 패키지 하나만 익혀서는 살아 남을 수 없는 시대가 오고 있다(...). SAS라는 통계 소프트웨어도 있고, 요즘엔 Python도 많이 쓴다. 개인용 프로그램 가격이 무려 400~600만원. 기업용은 1000만원이 가볍게 넘어가며, 공용 네트워크 같은 데 쓰려면 라이선스 비용으로 1억원을 내야 한다(...).

        [삭제] 2019-6-27 오전 2:23


4: SAS: 라이선스가 매우 비싸다. SAS Studio, SAS Miner등의 다양한 응용 버전이 존재한다. 1년간 사용할 라이선스를 얻는데 500 - 1,400만원 정도 한다. SPSS는 마우스를 이용한 GUI 인터페이스 위주로 되어있기 때문에 갈수록 SAS보다는 SPSS가 인기있는 실정이며, 그에 따라 대학에서도 SPSS를 더 많이 가르치고 있다. 하지만 SPSS는 데이터의 양이 매우 많을 경우 비효율적이고 전문적인 작업을 할 수 없기 때문에 전문가 레벨에서는 SAS가 더욱 선호되고 있다.

   -SAS     [삭제] 2019-6-27 오전 2:24


5: 파이썬이나 R은 오픈 소스에 무료고, 기본적으로 프로그래밍 언어라 매우 기능이 강력하다. 하지만 프로그래밍 언어이기 때문에 공대나 자연과학대, 통계학과, 경제학과 출신이 아니면 다루기 어렵다는 문제가 있지.

        [삭제] 2019-6-27 오전 2:26


6: 딥러닝(Deep learning)을 R로 구현하기 – Prediction Model 2017-06-30 뭔가 복잡한 계산이 있을 것 같지만, 실제로는 단순한 행렬 계산으로 값을 구한다. 예를 들면 2×3 행렬과 3×2 행렬을 곱하면 2×2 행렬이 나온다. 고등학교 2학년 수학이다. 실제로 이용되는 수학적 사고의 틀은 이걸로 충분하다.

        [삭제] 2019-6-27 오전 5:12


7: >6 아래에 간단하게 가중치와 편차(추정식의 Level-높낮이-을 지정하는 값) 행렬을 만들어봤다. 보통은 가중치와 편차를 하나의 행렬로 묶는다.

        [삭제] 2019-6-27 오전 5:15


8: >7 딥러닝이라고 불리는 계산법, 혹은 Deep Neural Network 모델이 결정해야하는 값은 위의 Weight 값이 전부다. Input 데이터를 Weight 값으로 계산해주면 Output 값이 나온다. 그 Output이 누군가가 이 상품을 살지 말지에 대한 확률일수도 있고, 이세돌이 어느 점에 착점할 것이라는 예측값일 수도 있다. 그 모든 값은 바로 위의 Weight 값을 얼마나 잘 짜느냐에 달려있다. https://blog.pabii.co.kr/deep-learning-by-r-prediction-model/

        [삭제] 2019-6-27 오전 5:33


9: 이 블로거의 주장은 Ethereum 등의 smart contract 기능은 매우 단순한 계약서 밖에 못 쓰고, 현실적인 복잡한 계약서는 안 되는 데다가, 개별 계약 처리 속도도 너무 느려서 주류로 올리서기 힘들 거라는 거네. '엘리자베스 홈즈'가 설립한 의료 검사 기기 회사 '테라노스'처럼 기술력 없이 과대 포장해서 팔아먹는 사기에 가깝다고. 엘리자베스 홈즈라는 계집년이 지 얼굴로 마케팅하고 투자자들한테 보지 대주고 해서 10억 달러(1조 2천억)에 달하던 투자금도 회사 망하면서 0원 되고.

        [삭제] 2019-6-29 오전 5:12


11: >9 2015년도에 테라노스 회사 주식 시가 총액이 90억 달러(10조원)였고, 저 여자가 보유한 주식이 45억 달러(5조원)였으니까, 사기도 정말 스케일 크게 친 거지. 전세계급 규모로. 보지 영업의 정점이랄까?

   -걸레보지년     [삭제] 2019-6-29 오전 5:52


10: >>12614 어쨌든 주가 예측도 가능은 하다는 거지. 데이터를 주가 그래프 같은 것 대신에 괜찮은 데이터를 쓰면.

   -추론 통계학     [삭제] 2019-6-29 오전 5:16

http://jqu6my2mlqp4zuui.onion/p?id=12612


Blockchain 시리즈 – 데이터 사이언티스트가 본 비트코인

  • #12614 2019-6-27 오전 1:10 [삭제]

Blockchain 시리즈 – 데이터 사이언티스트가 본 비트코인

장기간의 유학 생활을 끝내고 정말 오랜만에 한국에 돌아왔던 무렵, 막 사업하겠다는 학부시절 친구 하나를 만나게 됐다.

Q: 야, 그 알파고에 썼다는 딥러닝이라는거, 그거 주식 가격 예측하는데도 쓸 수 있지 않아?

A: 어차피 다 통계 모델들이니까 어디든 다 쓸 수야 있겠지. 포인트는 주식 가격 예측하는데 무슨 데이터 쓰느냐 아니겠냐.

Q: 그 여의도에 가면 기술적 분석 하는 사람들 있잖아, 이동평균선 같은거 보고, 물량 같은거 보고…

A: (손을 가로 저으며) 과거 데이터로 미래 데이터 예측하겠다는거네? 그럴려면 주가에 랜덤 Noise가 별로 없어야 되는데, 정작 주가 수익률은 정규 분포야. 빼박 랜덤이라는 이야기지. 다른 데이터 쓰겠다면 몰라도, 그건 안 될꺼 같다. 운 좋게 한 두번은 맞을지 몰라도.

Q: 아니, 그럼 알파고는 어떻게 이세돌을 4번이나 이겼냐?

A: 그거야 바둑 데이터가 랜덤이 아니라, 포석이라는게 있고, 이길려면 나름대로 전략이 있고 그러니까, 그 데이터들을 일정한 패턴으로 인식한 다음에, 패턴 중에 제일 좋은 결과값 주는 걸 계산했겠지. 게임이론 할 때처럼 마지막 stage부터 거꾸로 역산하면 현 시점의 승률 같은거 예측할 수 있잖아.

Q: 그게 주가 예측에는 안 되냐?

A: 주가 수익률은 정규분포고, 정규분포는 랜덤아니냐. 너 학부 때 계량(경제학) 안 들었냐?

Q: 아니, 경제통계만 들었어. 딥러닝이랑 계량이랑 무슨 상관있는데?

A: 너 어디가서 우리학교 경제과 출신이라고 하지마라. 쪽팔린다 임마. 둘 다 회귀분석 기반으로한 통계학이야.

Q: 딥러닝은 공학 알고리즘 아냐? 그게 왜 통계학이야?

A: 너 아까부터 느끼는건데, 우리과 공부한 애들이 보여주는 생각의 깊이가 안 보인다. 공대같이 말하네. 딥러닝은 신경망 모델이 다층으로 결합된거고, 신경망 모델은 우리가 학부 때 계량경제학에서 배우는 회귀분석 모델을 여러 개 중첩한거야. y=ax+b 같은 선형방정식으로 표현 못하는 비선형함수를 좀 쉽게 찾아내보려고 하는 일종의 non-parametric 모델이지.

Q: 그렇게 어렵게 말할거 없이, 이세돌을 이길 수 있는 인공지능이 왜 주가 예측에는 적용이 안 된다는거야?

A: 인공지능이라는 것도 결국 패턴찾는 통계 모델이고, 통계 모델이 제대로 작동하려면 데이터에 패턴이 숨어있어야지. 랜덤인데 어떻게 패턴을 찾냐? 스타(크래프트) 랜덤 종족 고르면 뭐 나올지 어캐 아냐? 아까 저그였으면 이번엔 저그 안 나오냐? 독립사건 몰라?

Q: 그럼 못 하는거야?

A: 과거 주가로 미래 주가 예측하는거 말고, 다른 데이터 찾아봐. 분기 보고서 공시되기 전에 영업 데이터 미리 알 수 있으면 돈 벌겠지. 월가가면 대형마트 주차장 사진 찍어서 매출액 미리 예측하더라.

(채만식의 『치숙(痴叔)』이 생각나는 대화였다. 이걸 다른 사람도 아니고 학부 동기랑…)

https://blog.pabii.co.kr/a-data-scientists-view-bitcoin/


1: >>12611 주식 시장에서 기술적 분석(technical analysis) 하는 새끼들이 제일 머저리지. 기후 데이터처럼 특정 패턴이 있는 게 아니라, 회사의 실적에 따라 사람들이 사면 가격이 올라가고, 팔면 가격이 떨어지는 건데, 그걸 기후 데이터처럼 이만큼 올랐으니까 다시 이만큼 떨어지겠지, 아니면 이만큼 떨어졌으니까 다시 이만큼 오르겠지 하는건, 자신이 투자하는 대상이 어떤 특성을 가졌는지 기본적인 이해도 없다는 소리지. 기본적 분석(fundamental analysis)처럼 가격결정의 원인을 따지는게 이치에맞지

        [삭제] 2019-6-27 오전 1:21


2: >>12612 매일 가격이 오르고 내리는 주가 데이터는 심층 학습의 데이터로 써도 쓸만한 결과를 얻을 수 없지만, 대형 마트 주차장의 위성 사진이나 항공 사진, 회사 영업 데이터 등은 심층 학습에 데이터로 쓰면 회사의 미래 주가를 예측하는 훌륭한 인공 지능을 만들 수도 있지.

        [삭제] 2019-6-27 오전 2:44


3: non-parametric 모델은 비모수 통계 모델이라는 소리임. 모수에 대한 가정을 하지 않고 추정 및 검정하는 건데, 어려워서 일반적인 시험에선 시험 범위에 안 넣는 경우가 많음. 모집단 population이 정규 분포가 아니거나, 표본 sample 숫자가 지나치게 적을 때, 변인의 척도가 명명 척도나 서열 척도일 때 등의 경우에 씀.

   -statistics     [삭제] 2019-6-29 오전 5:00


4: 심층 학습(deep learning)을 주가 예측이 아니라, 암호화폐 가격 예측에 쓰려는 꼴통들도 있던데 ㅋㅋㅋ

        [삭제] 2019-6-29 오후 10:28


5: >4 암호화폐 http://hwikis25cffertqe.onion/wiki/index.php?title=%EC%95%94%ED%98%B8%ED%99%94%ED%8F%90

   -코인충     [삭제] 2019-6-29 오후 10:34

http://jqu6my2mlqp4zuui.onion/p?id=12614


같이 보기

각주

  1. 웹 인용 |제목=Data science |url= https://en.wikipedia.org/wiki/Data_science