데이터 과학

From Hidden Wiki
Jump to navigation Jump to search
필독 사항 유닠스 계열 저작물, 성인물, 도박 웹 써버 보안 프로그래밍 그래핔 파싱
필독 사항 고스트BSD 표면 웹 싸이트 제작 리눅스 마스터 파이썬 트킨터 뷰티펄 숲
수학 아이투피 마약, 아청물, 해킹 웹 싸이트 보안 웹 프로그래밍 데이터 분석 게임 제작
통계학 뮤와이어 다크넽 싸이트 제작 정보 보안 기사 쟁고우 팬더즈 파이게임

데이터 과학 (data science)이란, 데이터 마이닝 (data mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.[1]

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 계산기과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 과학을 연구하는 사람을 데이터 과학자라고 한다.

튜링상을 수상한 짐 그레이 (Jim Gray) 박사는 데이터 과학은 과학의 네번째 패러다임으로 정의하고 과학(경험, 이론, 계산, 그리고 이제 데이터)에 관한 모든 것이 바뀌고 있는데 이유는 정보기술과 데이터 범람 (data deluge) 때문이라고 주장했다.

데이터 과학은 생물학, 의학, 공학, 사회학, 인문과학 등의 여러 분야에 응용되고 있다.


활용

사회과학에서 많이 쓰이는 통계학 프로그램 SPSS 필요한 사람은 아래 링크에서 받아라.

  • #12611 저작권 고소미 조심 2019-6-27 오전 0:20 [삭제]

사회과학에서 많이 쓰이는 통계학 프로그램 SPSS 필요한 사람은 아래 링크에서 받아라.

IBM SPSS Statistics 25.0 (x64) Multilingual + Crack [SadeemPC] Torrent | 1337x

https://1337x.to/torrent/2597772/IBM-SPSS-Statistics-25-0-x64-Multilingual-Crack-SadeemPC/

토런트 링크니까 트리블러로 받아도 되고, 그냥 받아도 되고. 설마 이런 것까지 IP 주소 채증해서 한국 IBM에서 고소하지는 않겠지. 판타지무협 소설 작가들은 토런트 공유로 고소 많이 한다고 하지만.


1: SPSS 자체가 Statistical Package for the Social Sciences의 약자임

        [삭제] 2019-6-27 오전 0:22


2: 통계학 전공자들은 오픈 소스 소프트웨어R 많이 쓰고, 공학 전공자들은 손에 익숙한 프로그래밍 언어파이썬 많이 쓰고. 인문학, 예체능에선 대학원 논문 쓸 때조차도 통계학 잘 안 쓰고. 자연과학 분야에선 SPSS, R, 파이썬 아무 거나 쓰는 것 같고. 심지어 MS Excel 쓰는 사람도 있으니까. 리브레 오피스 Calc도 기본적인 통계 함수 계산하고 그래프 그리고 하는 건 다 되니까.

        [삭제] 2019-6-27 오전 0:26


3: >2 인문학언어학 등 일부 분야를 중심으로 과학연구방법론통계학을 도입하기 시작했으니까. 아직도 인문예체능실험, 통계, 이중맹검, 실험군과 대조군, 플라시보 효과, 인과관계와 상관관계, 신뢰도와 타당도연구 방법론이랑은 담을 쌓은 교수들이 많지만.

        [삭제] 2019-6-27 오전 0:32


4: >3 한의학이 비판 받는 이유 중에 하나가, 출판된 논문들에 쓰인 연구 빙법론 중에 엉터리로 잘못 쓰인 게 많아서. 물론 의학이나 컴퓨터 공학 논문들도 통계학 전공자들이 까는 경우가 많지만. 통계학이나 머신 러닝에 대한 제대로 된 이해 없이 그냥 막 적용한다고. 각 상황에 맞춰서 모델을 세우고 거기에 맞는 기법을 사용해야 하는데.

        [삭제] 2019-6-27 오전 0:35


6: >4 빅 데이터도 각 데이터별로 적하한 모델이 있고, 뭘 적용할지가 달라져야 하는데, 자연과학, 공학, 의학 전공자들이 막무가내로 아무 데이터나 막 돌려서 엉터리 결과 뽑아낸다고. 진짜 최악은 데이터 자체가 딥 러닝을 돌릴 수 없는 주가 데이터 등에 인공 지능을 적용하는 금융 분야 멍청이들.

        [삭제] 2019-6-27 오전 0:41


7: >6 인공 신경 망 모델은 바둑 데이터나 기후 데이터에나 적용하는 거지, 주가 흐름에는 적용할 수 없는 건데.

        [삭제] 2019-6-27 오전 0:43


14: >2 R통계 프로그램이기도 하지만, 파이썬처럼 스크립트프로그래밍 언어처럼도 쓸 수 있지.

        [삭제] 2019-6-27 오전 2:00


5: 한의학에서는 수백년 전에 쓰던 동의보감 같은 의학 서적도 아무 생각없이 가져다 막 쓰니까. 검증 안 하고. 의학 분야에서 수백년전 의학 책에 나온대로 매독 환자에 수은 쓰고 그러면 감옥 가지. 한의학은 동의보감대로 중금속을 쓰든 뭘 쓰든 제재가 없지만. 상식적으로 몇 백년 전 의학 책은 문화재로서의 가치만 있지, 현재도 그걸로 진단하고 처방을 내린다는 건 살인 행위나 다름 없지.

        [삭제] 2019-6-27 오전 0:38


8: >>12612 SPSS magnet 주소

        [삭제] 2019-6-27 오전 0:51


9: 의학계와 데이터 사이언스 / 얼마전 의학 연구직으로 있는 학창 시절 친구를 만났다. 자기네가 데이터 작업을 하고 있는데, 여기에 머신러닝인지 인공지능인지라는걸 쓰면 뭔가 좀 더 획기적인 정보를 찾아낼 수 있냐고 묻더라. 논문을 한 번 읽고, 두 번 읽고, 세 번 읽고, 아무리 생각해봐도 별 대단할게 없는 사회학자들 데이터 리서치하는 수준의 정보들인데, 여기에 머신러닝을 어떻게 써보겠다는건지 잘 이해가 안 되더라.

        [삭제] 2019-6-27 오전 0:55


10: >9 Pabii 수업 시간에 계속 주장하는대로, 데이터에 Non-linear 패턴이 없으면 머신러닝이라는 계산 작업은 아무런 의미가 없다. Linear 관계를 찾는 작업, 특히 데이터 샘플이 랜덤 오차를 갖고 있는 경우라면 단순한 OLS가 최적의 Estimation 방법이기 때문이다. https://blog.pabii.co.kr/expect-too-much/

        [삭제] 2019-6-27 오전 0:57


11: >>12614 Q: 야, 그 알파고에 썼다는 딥러닝이라는거, 그거 주식 가격 예측하는데도 쓸 수 있지 않아? A: 어차피 다 통계 모델들이니까 어디든 다 쓸 수야 있겠지. 포인트는 주식 가격 예측하는데 무슨 데이터 쓰느냐 아니겠냐.

        [삭제] 2019-6-27 오전 1:31


12: SPSS로 할 수 있는 걸 굳이 Python 코드로 쳐야되냐? “데이터 분석한다는 석사, 박사 나온 사람들이 우리회사에서 하는 일이 말야, 그냥 우리가 학부 때 SPSS로 숙제 내던 걸 그냥 Python 이나 R 코드로 치는 수준 밖에 안 되던데? 진짜 그게 다야?”

        [삭제] 2019-6-27 오전 1:55


13: >12 왜 실리콘 밸리에서 R이나 Python 같은 Script형 언어를 할 수 있는 걸 Data Scientist의 기본 스킬셋이라고 생각할까? SAS나 SPSS로 못하는 작업, 그런 통계 패키지로 돌려보기에는 매우 귀찮고 어려운 작업들을 Script형 언어로는 쉽고, 빠르고, 더 체계적인 방식으로 처리할 수 있다는 사실을 알기 때문이다. https://blog.pabii.co.kr/spss-why-python/

        [삭제] 2019-6-27 오전 1:56


15: 행님덜 좋은장보 감사혀요

        [삭제] 2019-6-27 오전 2:40


16: >15 인공 지능, 딥 러닝, 빅 데이터, 데이터 사이언스, 통계학 입문하기 제일 쉬운 게 엑셀이나 리브레 오피스 '칼크'지. 그 다음이 SPSS고. R이나 파이썬이 가장 어렵고.

   -통계     [삭제] 2019-6-27 오후 8:48


17: 요즘에 심층 학습 뜨잖어? 많이들 공부해서 많이 벌자~

        [삭제] 2019-6-28 오전 5:05


18: >17 남한에선 프로그래머 연봉이 해봤자 1억이지만, 구글, 패이스북 같은데 자율 주행차 연구 등을 위해 채용되는 인고유지능쪽 프로그래머들 연봉은 40억, 50억 받는 사람들도 꽤 되더라. 미국한국은 자릿수 자체가 다름. 그리고 한국은 프로그래머로 몇년만 일하면 다들 관리직으로 가서 정말 숙련된 고급 프로그래머가 없는 반면에, 미국은 정년 퇴직 때까지 프로그래머로 일해서 운영 체제 제작도 가능한 고급 프로그래머도 많고.

        [삭제] 2019-6-28 오전 5:12


19: >18 남한에서는 어떤 프로그래머라도 직급이 올라가면 무조건 관리직에서 직원 관리 업무와 서류 업무만 해야 함. 관리직까지 못 올라가면 사표 쓰고 나가야 하는 거고. 그래서 경력 오래된 실력있는 프로그래머가 없지. 그리고 정부 사업 등에서 프로그래머 실력에 따라 인건비를 지급하는게 아니라, 자바 개발자 3년차 이런 식으로 계산하니까 연차만 쌓였지 실력 없는 프로그래머들이 많은 거고. 애초에 IT 업종은 자격증 따위 아무도 안 보는데, 쓸데없는 자격증이 너무 많음.

        [삭제] 2019-6-28 오전 5:17


20: >19 특히 정부 SI 사업에서 기사 자격증 있으면 더 고급 인력으로 쳐서 돈 더 주고 이런 것부터 폐지해야함. 어차피 기사 시험이란게 덤프 외워서 따는, 실무 능력과 관련 없는 무쓸모 자격증이지만. 심지어 SI 업종에서는 그나마 합격률이 낮아서 난이도도 어느 정도 있고, 실기 시험도 있는 정보 보안 기사 같은 것도 아니고, 대가리가 장식만 아니면 누구나 붙는 합격률과 난이도를 자랑하는데다가 실기 시험도 사실상 필기 시험인 정보 처리 기사 따위나 따고 있음.

        [삭제] 2019-6-28 오전 5:21


21: >20 정보처리 기사도 옛날처럼 실기 시험을 실제 프로그래밍 작업으로 내야지, 지금처럼 실기 시험도 필기 시험으로 칠 거면 뭐하러 실기 시험이 존재하냐? 그리고 그런 실무 능력 하나도 없는 자격증을 도대체 어디다가 쓸 수 있는데?

        [삭제] 2019-6-28 오전 5:24


22: SPSS, R, 파이썬은 인터넷에 사용 방법 무료 인강도 많고, 책으로도 많이 출판돼있다. 사진이랑 글로 설명한 자료도 많고, 인터넷 검색만 해보면 무료 학습 자료 많읍.

        [삭제] 2019-6-28 오후 9:54


23: 지식처리와 통계


[http!]http://www.kocw.net/home/search/kemView.do?kemId=1148354 언어와 통계


[http!]http://www.kocw.net/home/search/kemView.do?kemId=1182905 Excel, SPSS, R 쓰는 방법인데 무료 인강치고는 괜찮은 것 같네.

   -통계학 배우자     [삭제] 2019-6-29 오전 1:25


24: >23 한국외국어대학교 언어인지과학과 전종섭 교수 강의임.

        [삭제] 2019-6-29 오전 2:17


25: 파이썬 처음 쓰면 소스 코드 에디터를 뭘 쓸지부터 고민일텐데 Visual Studio Code나 Sublime Text같은 거 많이 씀. ST는 무료이지만 소스 코드가 비공개고, VSC는 오픈 소스지만 머이크로소프트에서 만들었고. 그래서 Red Hat Enterprise Linux의 소스 코드로 만든 CentOS처럼 VSC의 소스 코드로 만든 VSCodium도 많이 쓰지.

        [삭제] 2019-6-29 오전 4:13


26: >25 Red Hat에서 만들어도 저 지랄인데, 마이크로소프트에서 만들었다고 하면 싫어할 사람들이 더 많으니까. 그리고 MS에서 몇 가지 사용상 제약도 걸어놨고.

        [삭제] 2019-6-29 오전 4:15


27: >26 텍스트 에디터기만 하면 소스 코드 편집도 가능하니까 메모장 써도 되긴 하지만, 그런 편의 기능이 거의 없는 단순한 툴을 쓰는 사람은 거의 없지. VSCodium같은 건 리눅스, 윈도우즈, 맥OS 모두 지원하고.

        [삭제] 2019-6-29 오전 4:19


28: >27 리눅스 사용자는 https://vscodium.com/ 보고 설치하고, 윈도우즈 사용자는 https://github.com/VSCodium/vscodium/releases 에서 VSCodiumUserSetup-x64-1.35.1.exe로 다운로드 받으면 됨. ia32나 win32는 32비트, x64는 64비트, VSCodiumSetup은 컴퓨터에 있는 모든 사용자용, VSCodiumUserSetup은 현재 로그인한 사용자 한 명용.

   -VSCodium     [삭제] 2019-6-29 오전 4:37


29: >28 VSCodiumUserSetup이 더 낮은 권한을 요구하고, 개별 설정이 따로 저장되므로 이쪽 설치를 권장하는 거 같네. https://stackoverflow.com/questions/51928174/what-is-vscode-user-setup-for-windows 이건 VSCode용 설명이긴 한데, 어차피 VSCodium도 소스 코드는 거의 동일하니까 이 설명이 똑같이 적용됨.

   -VSCode     [삭제] 2019-6-29 오전 4:39


35: >29 VSCodiumSetup 대신에 VSCodiumUserSetup 깔면 된다.

        [삭제] 2019-6-30 오후 9:34


36: >35 VSCodiumSetup-x64-1.35.1.exe 대신에 VSCodiumUserSetup-x64-1.35.1.exe 설치하면 된다.

        [삭제] 2019-7-2 오전 12:17


30: SPSS 개인용 라이선스 가격이 400-600만원이나 하니까, 한국 IBM에서 충분히 저작권법 위반 단속할만 한데? 안전하게 트리블러로 한 번 우회해서 받는 게 낫지 않냐?

   -Tribler     [삭제] 2019-6-29 오전 4:41


31: 과거에 AI 주식투자펀드 있었는데 결국 손실만 존나게 나고 사라졌다. 뭐 딥러닝이면 회사 전망이나 가치에 관해서 혼자서 수집하고 분석해서 투자하는 프로그램 만들면은 잘될수도 있긴하겠다 근데 주식시장은 변수가 존나 많지않냐?

        [삭제] 2019-6-29 오전 4:47


32: >31 >>12614 보면 주가 시장 가격 그래프를 데이터로 넣으면 미래 가격 예측을 할 수 없고, 마트 주차장 항공 사진 등을 데이터로 넣으면 예측 가능하고. 어느 데이터를 넣느냐가 중요하다고 함.

        [삭제] 2019-6-29 오전 4:51


33: 학부 기준으로 얘기하면 엑셀은 생명과학과 같은데서 많이 쓰고, SPSS는 심리학과 같은 사회과학 대학에서 많이 쓰고, R은 통계학과에서 많이 쓰고, 파이썬은 컴퓨터 공학과에서 많이 쓰고. 단, 사회과학 같은 과학 흉내만 내는 유사 과학이더라도 대학원생이나 교수급은 SPSS 대신에 R 쓰는 경우도 많음.

   -문돌이는 유사 인류     [삭제] 2019-6-30 오전 2:12


34: >33 자연과학대에서 제일 수학도 못 하고, 과학 같지도 않은 유사 과학이라고 까이는 생물학도, 심리학같은 "진짜 유사 과학" 하는 사회과학 놈들에 비하면 진짜 과학이지.

        [삭제] 2019-6-30 오전 2:15


37: 대학교 졸업장 필요한 애들한테는 독학사도 괜찮은 것 같더라. 1-4단계까지 시험 봐야하는데 한번에 2만원씩 총 8만원. 공부할 교재는 중고로라도 사야하겠지만. 강의는 위에 나온 한국외대 전종섭 교수 강의처럼 KOCW에 올라온 무료 대학 강의 보면 되고. 빠르면 1년 안에도 독학학위제로 학사 학위 취득 가능하다. 전공은 심리학, 컴퓨터과학, 간호학, 정보통신학 등이 있고.

-독학사 [삭제] 2019-7-3 오전 5:49

38: >37 미국대학원 독학사 학위로 입학이 가능한 미국 대학원 독학사로 학사 학위 취득 후 입학이 가능한 대학원 리스트 Pace University - TEACHING ENGLISH TO SPEAKERS OF OTHER LANGUAGES (TESOL), MST University of Idaho - MA in TESOL George Mason University – Graduate Pathway in English – Linguistics

-미국 대학원 [삭제] 2019-7-3 오전 5:52

39: >38 Colorado State University – Graduate Pathway in TEFL / TESL Hofstra University – Graduate Pathway in TESOL Certification UAB – Graduate Pathway in TESOL USF – Graduate Pathway in TESOL Drew – Graduate Pathway in Education

[http!]http://uhakkorea.com/ab-1201-7596

-해외에서 독학사 학위 인정 [삭제] 2019-7-3 오전 5:54

40: >37 IT, BT, NT가 미래 산업이니까, 독학학위제 전공에 생명과학과나 생명공학과가 추가되는 것도 괜찮지. 왜인지는 잘 모르겠지만, 나노 테크놀러지 학과는 대학에 잘 없지만. IT랑 BT 학과는 없는 대학이 거의 없지.

-생물학 [삭제] 2019-7-3 오전 6:03

41: >40 예전에 독학사에 농학이랑 수학 전공이 있었는데, 지원자가 별로 없어서 없어졌지. 요즘에 대학에서도 신입생 모집하기 힘들어진 농학과들이 생명과학과로 간판 바꿔달면 신입생 몰리는 것처럼 독학사도 간판 바꿔달기가 필요하지. 요즘에 농업은 망하는 산업이라. 수학도 인기가 별로 없지만, 요즘에 빅 데이터, 데이터 과학, 데이터 프로세싱, 인공 지능 등이 뜨면서 통계학에 대해서도 사람들이 관심이 많아졌고.

    [삭제] 2019-7-3 오전 6:07

42: >41 한국방송통신대학교 대학원에 농업생명과학과 있는 것만 봐도.

    [삭제] 2019-7-3 오전 6:09

43: >41 방통대 대학원 바이오정보·통계학과. "바이오정보·통계학과"는 생물정보학, 빅 데이터 프로세싱, 통계학 등을 배운다. 보건-의료와 관련된 통계 활용법도 가르친다. 첫 신입생 30명 중 5명이 의사였으며, 나머지 학생들도 보건의료인이 많았다. 대학원에 학과를 신설한 이유 자체가 방통대 학부 과정의 정보통계학과에 매년 70여명의 의사들이 등록했기 때문. 대학원 수업에서는 버클리, 콜롬비아, 미시간 등 미국 유명 대학 교수들을 초청해 강의를 방송 녹화하여 학생들에게 제공하기도 한다.

-바이오정보·통계학과 [삭제] 2019-7-3 오전 6:11

44: >43 일반 대학원 통계학과보다 수학을 적게 배운다. 아래는 개설 과목이다. 1. 바이오정보학, 의료정보학, 보건정보학, 임상시험과 유전자감식, 고급바이오정보학. 2. 데이터분석방법론, 데이터 마이닝, 품질경영세미나, 조사방법론특강, 빅데이터분석방법론, 고급데이터분석사례연구. 3. 통계적 추론, 시계열 분석, 생존 분석, 베이지안통계학.

-30명 중 5명이 의사 [삭제] 2019-7-3 오전 6:14

45: 위에 누가 전종섭 교수 얘기해서 찾아보니까 이사람 인지심리학 강의 재밋네. 2013년 2학기 강의랑 2010년 1학기 강의있는데 2010년도꺼는 별로 재미없고 2013년께 재밋네

[http!]http://www.kocw.net/home/search/kemView.do?kemId=998403

    [삭제] 2019-7-3 오전 9:48

46: >45 KOCW에 올라온 한국외대 강의도 요즘에 올라온건 크롬이나 스마트폰에서도 재생되는데 이건 옛날에 올라온거라 그런가 인터넷 익스플로러에서만 재생되네

    [삭제] 2019-7-3 오전 9:50

47: >46 Windows Media Player로 스트리밍 되는 동영상은 동영상 주소만 알아내면 다운로드 받을 수 있는데? 다운로드 받아서 스마트폰으로 보면 됨.

    [삭제] 2019-7-3 오전 10:01

48: >47 이거 인터넷 익스플로러에서 동영상 재생한 다음에 기본화면보기 누르고 동영상 화면에서 마우스 오른쪽 버튼 누르고 속성에서 위치 보면 동영상 주소 나와. 그 주소 복사해서 인터넷 익스플로러에 붙여넣으면 wmv 파일 다운로드 메뉴 뜨는데 그때 다운로드 받으면 됨.

    [삭제] 2019-7-3 오전 10:07

49: >48 속성의 파일 탭에서 위치 항목

    [삭제] 2019-7-3 오전 10:09

50: >49 1강은

[http!]http://contents.hufs.ac.kr/contents/univ/R07312/23/Player_en.wmv 이고, 2강은 23이 24로, 3강은 25로 숫자가 하나씩 커지네.

    [삭제] 2019-7-3 오전 10:12

51: >50 만약에 니 스마트폰에서 wmv 파일 재생이 안 되면 컴퓨터에 샤나 인코더(Shana Encoder)같은거 깔아서 영상이랑 소리 코덱을 다른걸로 바꿔서 인코딩 다시 해주면 된다.

    [삭제] 2019-7-3 오전 10:47

52: >51 나는 스마트폰에서도 wmv 파일 잘 재생됨

    [삭제] 2019-7-3 오전 10:54

53: 링크에 있는 마그넷 주소 끝까지 다 쓸 필요 없고, 맨 앞 부분만 쓰면 됨. magnet:?xt=urn:btih:20897C12A9A6BDB3066CAE78FBBAD76F68FE0714

    [삭제] 2019-7-3 오후 2:30


http://jqu6my2mlqp4zuui.onion/p?id=12611

SPSS magnet 주소

  • #12612 SPSS magnet 주소 2019-6-27 오전 0:50 [삭제]

>>12611 IBM SPSS Statistics 25.0 (x64) Multilingual + Crack [SadeemPC] Torrent | 1337x

https://1337x.to/torrent/2597772/IBM-SPSS-Statistics-25-0-x64-Multilingual-Crack-SadeemPC/

magnet:?xt=urn:btih:20897C12A9A6BDB3066CAE78FBBAD76F68FE0714&dn=IBM+SPSS+Statistics+25.0+%28x64%29+Multilingual+%2B+Crack+%5BSadeemPC%5D&tr=http%3A%2F%2Fbigfoot1942.sektori.org%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker2.wasabii.com.tw%3A6969%2Fannounce&tr=http%3A%2F%2Fbt.artvid.ru%3A6969%2Fannounce&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A80%2Fannounce&tr=http%3A%2F%2Fannounce.torrentsmd.com%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker.trackerfix.com%2Fannounce&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A80%2Fannounce&tr=udp%3A%2F%2Fexplodie.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fmgtracker.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fasnet.pw%3A2710%2Fannounce&tr=udp%3A%2F%2Ftracker.mgtracker.org%3A2710%2Fannounce&tr=udp%3A%2F%2Ftracker4.piratux.com%3A6969%2Fannounce&tr=udp%3A%2F%2Ftracker.trackerfix.com%3A80%2Fannounce&tr=udp%3A%2F%2Ftracker.pomf.se%3A80%2Fannounce&tr=udp%3A%2F%2Ftracker.zer0day.to%3A1337%2Fannounce&tr=udp%3A%2F%2Ftracker.leechers-paradise.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fcoppersurfer.tk%3A6969%2Fannounce


1: >>12611 사회과학 전공이라 교수가 SPSS 고집하는 거 아니면 SPSS 대신에 Python이나 R 써라.

        [삭제] 2019-6-27 오전 2:03


2: >1 사회과학 교수가 SPSS 쓰는 건 문과 교수한테는 Python이나 R같은 프로그래밍 언어가 너무 어렵기 때문이지. SPSS는 사실 MS Excel에서 조금 업그레이드 된 수준이라.

        [삭제] 2019-6-27 오전 2:19


3: SPSS: MS 엑셀과 유사해 보이기 때문에 진입 장벽이 낮지만 점점 STATA나 R 등이 인기를 끌고 있어서, 이 바닥에서도 통계 패키지 하나만 익혀서는 살아 남을 수 없는 시대가 오고 있다(...). SAS라는 통계 소프트웨어도 있고, 요즘엔 Python도 많이 쓴다. 개인용 프로그램 가격이 무려 400~600만원. 기업용은 1000만원이 가볍게 넘어가며, 공용 네트워크 같은 데 쓰려면 라이선스 비용으로 1억원을 내야 한다(...).

        [삭제] 2019-6-27 오전 2:23


4: SAS: 라이선스가 매우 비싸다. SAS Studio, SAS Miner등의 다양한 응용 버전이 존재한다. 1년간 사용할 라이선스를 얻는데 500 - 1,400만원 정도 한다. SPSS는 마우스를 이용한 GUI 인터페이스 위주로 되어있기 때문에 갈수록 SAS보다는 SPSS가 인기있는 실정이며, 그에 따라 대학에서도 SPSS를 더 많이 가르치고 있다. 하지만 SPSS는 데이터의 양이 매우 많을 경우 비효율적이고 전문적인 작업을 할 수 없기 때문에 전문가 레벨에서는 SAS가 더욱 선호되고 있다.

   -SAS     [삭제] 2019-6-27 오전 2:24


5: 파이썬이나 R은 오픈 소스에 무료고, 기본적으로 프로그래밍 언어라 매우 기능이 강력하다. 하지만 프로그래밍 언어이기 때문에 공대나 자연과학대, 통계학과, 경제학과 출신이 아니면 다루기 어렵다는 문제가 있지.

        [삭제] 2019-6-27 오전 2:26


6: 딥러닝(Deep learning)을 R로 구현하기 – Prediction Model 2017-06-30 뭔가 복잡한 계산이 있을 것 같지만, 실제로는 단순한 행렬 계산으로 값을 구한다. 예를 들면 2×3 행렬과 3×2 행렬을 곱하면 2×2 행렬이 나온다. 고등학교 2학년 수학이다. 실제로 이용되는 수학적 사고의 틀은 이걸로 충분하다.

        [삭제] 2019-6-27 오전 5:12


7: >6 아래에 간단하게 가중치와 편차(추정식의 Level-높낮이-을 지정하는 값) 행렬을 만들어봤다. 보통은 가중치와 편차를 하나의 행렬로 묶는다.

        [삭제] 2019-6-27 오전 5:15


8: >7 딥러닝이라고 불리는 계산법, 혹은 Deep Neural Network 모델이 결정해야하는 값은 위의 Weight 값이 전부다. Input 데이터를 Weight 값으로 계산해주면 Output 값이 나온다. 그 Output이 누군가가 이 상품을 살지 말지에 대한 확률일수도 있고, 이세돌이 어느 점에 착점할 것이라는 예측값일 수도 있다. 그 모든 값은 바로 위의 Weight 값을 얼마나 잘 짜느냐에 달려있다. https://blog.pabii.co.kr/deep-learning-by-r-prediction-model/

        [삭제] 2019-6-27 오전 5:33


9: 이 블로거의 주장은 Ethereum 등의 smart contract 기능은 매우 단순한 계약서 밖에 못 쓰고, 현실적인 복잡한 계약서는 안 되는 데다가, 개별 계약 처리 속도도 너무 느려서 주류로 올리서기 힘들 거라는 거네. '엘리자베스 홈즈'가 설립한 의료 검사 기기 회사 '테라노스'처럼 기술력 없이 과대 포장해서 팔아먹는 사기에 가깝다고. 엘리자베스 홈즈라는 계집년이 지 얼굴로 마케팅하고 투자자들한테 보지 대주고 해서 10억 달러(1조 2천억)에 달하던 투자금도 회사 망하면서 0원 되고.

        [삭제] 2019-6-29 오전 5:12


11: >9 2015년도에 테라노스 회사 주식 시가 총액이 90억 달러(10조원)였고, 저 여자가 보유한 주식이 45억 달러(5조원)였으니까, 사기도 정말 스케일 크게 친 거지. 전세계급 규모로. 보지 영업의 정점이랄까?

   -걸레보지년     [삭제] 2019-6-29 오전 5:52


10: >>12614 어쨌든 주가 예측도 가능은 하다는 거지. 데이터를 주가 그래프 같은 것 대신에 괜찮은 데이터를 쓰면.

   -추론 통계학     [삭제] 2019-6-29 오전 5:16


12: magnet:?xt=urn:btih:20897C12A9A6BDB3066CAE78FBBAD76F68FE0714 마그넷 주소 저거 다 쓸 필요 없고, 맨 앞의 저기까지만 쓰면 됨.

    [삭제] 2019-7-3 오후 2:29

13: >12 트리블러나 토렌트 사이트에 있는 infohash 값이 보일텐데 이 infohsh 값 앞에 magnet:?xt=urn:btih: 만 붙이면 그게 magnet 주소임. infohsh는 대소문자를 구별하지 않으니까 소문자로 써도 되고. 뒤에 추가로 붙는 건 파일 이름, tracker 정보 등 추가 정보인데 안 써도 무방함.

    [삭제] 2019-7-3 오후 3:20

14: >13 infohash는 말 그대로 hash 값 정보(info)임.

    [삭제] 2019-7-3 오후 3:21

15: >14 트리블러에서 현재 다운로드하는중인 파일이나 시드 유지중인 파일 눌러보면 Details 탭에 Infohash 항목이 있음. 토랜트 사이트에 자석 주소와 별도로 인포해시 값이 올라와있기도 하고.

    [삭제] 2019-7-3 오후 3:23

16: >13 magnet 주소에 tracker 값을 안 써주면 트래커 정보가 없어서 peer를 못 찾아서 다운로드가 늦게 시작하거나 느리게 받아질 수 있음. 일단 다운로드가 시작되고 피어를 하나 둘씩 찾아서 계속 추가하긴 하겠지만, 트래커 정보가 제대로 있으면 처음부터 피어가 많이 붙은 상태로 시작하니까 최고 속도에 더 빨리 도달할 수 있지.

    [삭제] 2019-7-3 오후 3:44

17: >16 ㅇㅇ 일부러 magnet 주소에 없는 인기있는 트래커 목록까지 추가해주는 경우도 있는데 굳이 저걸 빼고 시작할 이유가..

    [삭제] 2019-7-3 오후 3:46

18: 트리블러 처음깔았을때 익명 모드가 아닌데도 다운로드가 안될수도있음. 그럴때는 일단 peer가 많을것같은 파일로 다운을 시도해보고 그 파일도 마찬가지면 특정파일이 문제가아니라 트리블러 전체가 다운로드가 안 되는 것임. 트리블러는 공유기에서 수동으로 port forwarding을 해줄 필요없이 UPnP로 자동으로 포트를 잡는 것으로 알고 있는데, 아마 이 과정에서 port를 빨리 못 잡아서 그런 것 같음. 그냥 기다리거나, 기다려도 안 되면 컴퓨터 몇 번 껐다 켜면서 트리블러 종료했다 재시작했다 하면 어느새 다운로드가 시작돼있더라.

    [삭제] 2019-7-3 오후 3:54

19: >18 그리고 이렇게 한번 포트 잡아놓으면 그 다음부터는 이런 문제가 없음.

    [삭제] 2019-7-3 오후 3:55

20: >19 트리블러 익명 모드로 다운로드 받는 건 node나 hop이 없어서 다운 못 받는 경우도 많음. 자원 봉사자가 VPN 낀 자기 집 컴퓨터나 VPS를 공유해주는 건데, Tor랑 달리 Tribler는 hop이 별로 없어서 어쩔 때는 exit node가 하나도 없기도 함. 트리블러 사용자는 입구 노드와 중간 노드는 강제 참여라 얘네는 안 모자름. 예전엔 출구노드도 강제 참여였는데, 그러다보니까 트리블러로 영화나 받다가 다른사람이 받은 아동포르노 때문에 압수수색 받는 등 항의가 많이들어오자, 출구노드는 자기가 수동으로 켜게바뀜

    [삭제] 2019-7-3 오후 4:00

21: >20 이게 트리블러만의 문제는 아니고, 토어를 제외한 대부분의 익명 프로그램이 이런 문제가 있음. I2P도 outproxy가 거의 제대로 작동 안 하니까, 그냥 면웹 접속은 포기하고 쓰는 사람도 많음. 아니면 원래 있던 outproxy 안 쓰고 Tor를 outproxy로 쓰는 경우도 있는데, 차라리 이게 훨씬 빠르고 편함.

-아이투피 [삭제] 2019-7-3 오후 4:05


http://jqu6my2mlqp4zuui.onion/p?id=12612

Blockchain 시리즈 – 데이터 사이언티스트가 본 비트코인

  • #12614 2019-6-27 오전 1:10 [삭제]

Blockchain 시리즈 – 데이터 사이언티스트가 본 비트코인

장기간의 유학 생활을 끝내고 정말 오랜만에 한국에 돌아왔던 무렵, 막 사업하겠다는 학부시절 친구 하나를 만나게 됐다.

Q: 야, 그 알파고에 썼다는 딥러닝이라는거, 그거 주식 가격 예측하는데도 쓸 수 있지 않아?

A: 어차피 다 통계 모델들이니까 어디든 다 쓸 수야 있겠지. 포인트는 주식 가격 예측하는데 무슨 데이터 쓰느냐 아니겠냐.

Q: 그 여의도에 가면 기술적 분석 하는 사람들 있잖아, 이동평균선 같은거 보고, 물량 같은거 보고…

A: (손을 가로 저으며) 과거 데이터로 미래 데이터 예측하겠다는거네? 그럴려면 주가에 랜덤 Noise가 별로 없어야 되는데, 정작 주가 수익률은 정규 분포야. 빼박 랜덤이라는 이야기지. 다른 데이터 쓰겠다면 몰라도, 그건 안 될꺼 같다. 운 좋게 한 두번은 맞을지 몰라도.

Q: 아니, 그럼 알파고는 어떻게 이세돌을 4번이나 이겼냐?

A: 그거야 바둑 데이터가 랜덤이 아니라, 포석이라는게 있고, 이길려면 나름대로 전략이 있고 그러니까, 그 데이터들을 일정한 패턴으로 인식한 다음에, 패턴 중에 제일 좋은 결과값 주는 걸 계산했겠지. 게임이론 할 때처럼 마지막 stage부터 거꾸로 역산하면 현 시점의 승률 같은거 예측할 수 있잖아.

Q: 그게 주가 예측에는 안 되냐?

A: 주가 수익률은 정규분포고, 정규분포는 랜덤아니냐. 너 학부 때 계량(경제학) 안 들었냐?

Q: 아니, 경제통계만 들었어. 딥러닝이랑 계량이랑 무슨 상관있는데?

A: 너 어디가서 우리학교 경제과 출신이라고 하지마라. 쪽팔린다 임마. 둘 다 회귀분석 기반으로한 통계학이야.

Q: 딥러닝은 공학 알고리즘 아냐? 그게 왜 통계학이야?

A: 너 아까부터 느끼는건데, 우리과 공부한 애들이 보여주는 생각의 깊이가 안 보인다. 공대같이 말하네. 딥러닝은 신경망 모델이 다층으로 결합된거고, 신경망 모델은 우리가 학부 때 계량경제학에서 배우는 회귀분석 모델을 여러 개 중첩한거야. y=ax+b 같은 선형방정식으로 표현 못하는 비선형함수를 좀 쉽게 찾아내보려고 하는 일종의 non-parametric 모델이지.

Q: 그렇게 어렵게 말할거 없이, 이세돌을 이길 수 있는 인공지능이 왜 주가 예측에는 적용이 안 된다는거야?

A: 인공지능이라는 것도 결국 패턴찾는 통계 모델이고, 통계 모델이 제대로 작동하려면 데이터에 패턴이 숨어있어야지. 랜덤인데 어떻게 패턴을 찾냐? 스타(크래프트) 랜덤 종족 고르면 뭐 나올지 어캐 아냐? 아까 저그였으면 이번엔 저그 안 나오냐? 독립사건 몰라?

Q: 그럼 못 하는거야?

A: 과거 주가로 미래 주가 예측하는거 말고, 다른 데이터 찾아봐. 분기 보고서 공시되기 전에 영업 데이터 미리 알 수 있으면 돈 벌겠지. 월가가면 대형마트 주차장 사진 찍어서 매출액 미리 예측하더라.

(채만식의 『치숙(痴叔)』이 생각나는 대화였다. 이걸 다른 사람도 아니고 학부 동기랑…)

https://blog.pabii.co.kr/a-data-scientists-view-bitcoin/


1: >>12611 주식 시장에서 기술적 분석(technical analysis) 하는 새끼들이 제일 머저리지. 기후 데이터처럼 특정 패턴이 있는 게 아니라, 회사의 실적에 따라 사람들이 사면 가격이 올라가고, 팔면 가격이 떨어지는 건데, 그걸 기후 데이터처럼 이만큼 올랐으니까 다시 이만큼 떨어지겠지, 아니면 이만큼 떨어졌으니까 다시 이만큼 오르겠지 하는건, 자신이 투자하는 대상이 어떤 특성을 가졌는지 기본적인 이해도 없다는 소리지. 기본적 분석(fundamental analysis)처럼 가격결정의 원인을 따지는게 이치에맞지

        [삭제] 2019-6-27 오전 1:21


2: >>12612 매일 가격이 오르고 내리는 주가 데이터는 심층 학습의 데이터로 써도 쓸만한 결과를 얻을 수 없지만, 대형 마트 주차장의 위성 사진이나 항공 사진, 회사 영업 데이터 등은 심층 학습에 데이터로 쓰면 회사의 미래 주가를 예측하는 훌륭한 인공 지능을 만들 수도 있지.

        [삭제] 2019-6-27 오전 2:44


3: non-parametric 모델은 비모수 통계 모델이라는 소리임. 모수에 대한 가정을 하지 않고 추정 및 검정하는 건데, 어려워서 일반적인 시험에선 시험 범위에 안 넣는 경우가 많음. 모집단 population이 정규 분포가 아니거나, 표본 sample 숫자가 지나치게 적을 때, 변인의 척도가 명명 척도나 서열 척도일 때 등의 경우에 씀.

   -statistics     [삭제] 2019-6-29 오전 5:00


4: 심층 학습(deep learning)을 주가 예측이 아니라, 암호화폐 가격 예측에 쓰려는 꼴통들도 있던데 ㅋㅋㅋ

        [삭제] 2019-6-29 오후 10:28


5: >4 암호화폐 http://hwikis25cffertqe.onion/wiki/index.php?title=%EC%95%94%ED%98%B8%ED%99%94%ED%8F%90

   -코인충     [삭제] 2019-6-29 오후 10:34


6: 기술 분석으로 미래 주가 예측할 수 없다는 사실이 알려져 있음. 기술 분석 하는 새끼는 빡대가리 인증하는 거. 로또 등 복권하는 놈들이 자기는 인간 이하의 열등한 존재라고 광고하는 것과 마찬가지. 수학적으로 로또를 100만원어치를 사면 세금 빼고 생각하면 기대 수익 -50만원이고, 22-33%의 세금을 대충 30%로 잡고 계산하면 기대 수익은 -65만원이다. 복권에 투자하는 것은 손해 보는 행위인데, 그것을 지속한다는것은 자신은 지성이 있는 인류라면 당연히 알아야할 확률과 통계의 기본도 모르는 무식하고 열등한 존재임을 증명하는거지

-확률과 통계 [삭제] 2019-7-3 오후 3:35

7: >6 로또 판매 액수의 50%가 상금으로 돌아가고. 복권치고는 많이 돌려주는 거지. 판매 업체한테서 정부가 세금으로 잔뜩 뜯어가고, 상금 받은 사람들한테 다시 한번 뜯어가고. 여성부에서도 복권 수익의 상당 부분을 가져감.

    [삭제] 2019-7-3 오후 3:39

8: >7 로또나 복권은 불로소득인 만큼 다소 높은 세율의 소득세가 붙는다. 5만원에서 3억원 이하는 20%, 3억원 초과는 30%의 세율을 적용하고 있다. 소득세에는 소득세의 10%에 해당하는 주민세까지 붙는다. 결과적으로 5만~3억원 이하는 22%, 3억원 초과는 33%의 세율이 붙게 된다. 그렇다면 1등 당첨금에 적용될 세금을 보자. 1등 당첨금이 5억원일 경우 33%의 세금을 매겨 1억6500만원을 내는 것은 아니다. 분리과세 개념을 적용해 3억원은 22%, 3억원을 초과한 나머지 2억원에는 33%의 세율을 적용한다.

    [삭제] 2019-7-3 오후 3:40

9: >6 ㅇㅇ 맞는 말이긴 한데. 실제로는, 신용이 없어 대출 한도가 적은 사람들한테는, 1억원의 가치가 100만원의 가치의 100배라고 볼 수는 없지.

    [삭제] 2019-7-3 오후 3:44


http://jqu6my2mlqp4zuui.onion/p?id=12614

같이 보기

각주

  1. 웹 인용 |제목=Data science |url= https://en.wikipedia.org/wiki/Data_science