전체 글(50)
-
웹스크래핑 Requests,Beautifulsoup
안녕하세요 오늘 살펴볼 내용은 웹 스크래핑입니다. 보통은 웹크롤링이라고 많이 하죠? 오늘은 python requests, beautifulsoup모듈을 통한 크롤링에 대해 적어보겠습니다. 일단 서버와 클라이언트에 대한 개념부터 볼게요! 클라이언트에서 서버에 요청을 하면 서버가 응답해주는 원리입니다. 웹페이지에서 보자면 보시는 바와 같이 서버에게 요청하고 응답받은 html을 해석하여 브라우저가 보여줍니다. 그리고 제가 조금 헷갈렸던 HTTP에서 GET과 POST에 대해 보고 갈게요 GET은 단어 뜻대로 얻는 것입니다. 예를 들면 서버에 조회를 하는 것과 같이 말이죠 POST는 응답을 보내는 것입니다. 저는 이 개념이 생각보다 헷갈려서 많이 찾아봤네요 바로 코드를 보겠습니다. 저는 네이버 뉴스의 제목들을 한..
2022.01.27 -
(M1 Mac)Pycharm에 Maria DB 연결하기
오늘은 Pycharm IDE에 Maria DB 연결하는 과정을 적어볼까 합니다! 일단 저는 m1 맥을 사용중입니다. 터미널로 들어간후 maria db를 실행합니다.(maria db가 설치되어 있다는 가정하에) 미리 만들어 놓은 계정으로 들어갑니다 저는 python이라는 계정으로 접속했습니다. 데이터베이스 목록을 보니 제가 미리 만들어 놓은 python_db 라는 데이터베이스가 있군요! use python_db; 라는 문장을 통해 접속합니다. select 문을 통해 보니 제가 미리 만들어 놓은 테이블에 데이터들이 보이군요 ㅎㅎ 이제 파이참에 연결해보겠습니다 파이참 오른쪽 끝에 보시면 database 라는 탭이 있습니다. 선택하여 플러스 버튼을 누른후 maria db를 선택합니다. Name : 원하는 데이터..
2022.01.26 -
데이터프레임의 응용
함수매핑 함수매핑은 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정을 뜻한다. 사용자가 직접만든 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용하는 것이 가능하다. 시리즈 원소에 함수 매핑 import seaborn as sns titanic = sns.load_dataset('titanic') df = titanic.loc[:,['age','fare']] df['ten'] = 10 def add_10(n): return n+10 def add_two_obj(a,b): return a+b #시리즈 변수에 적용 sr1 = df['age'].apply(add_10) #모든행에 add_10 함수 적용 sr2 = df..
2021.07.28 -
주성분분석과 클러스터링
비슷하면서도 다른 목적을 가진 분석기법이 많다. 여러 변수들을 합쳐서 공통된 잠재 변수를 찾아내는 분석을 요인분석이라고 하며, 대표적으로 주성분분석이 있다. 요인분석에서 한 단계 발전한 형태로 테이블 각 행에 있는 관측값들을 변수의 유사성에 따라 그룹지어서 구분하는 클러스터링분석이 있다 클러스터링분석을 야구에 다양하게 적용할수있다. 각종 기록들을 이용해 메이저리그 30개 팀을 구분해볼수있다. 장타력과 투수력은 팀들을 구별하는데 있어 어떤 지표보다도 결정적인 역할을 해왔다. 변수가 2개 이상 존재할 경우 주요인분석으로 구한 잠재 변수를 이용해 관측값을 그룹화 하므로 군집분석과 요인분석이 동시에 사용된다. team
2021.07.27 -
우승 가능성
이번엔 우승할 가능성, 우승하지 못할 가능성을 로지스틱 회귀분석으로 알아본다. 로지스틱 회귀분석은 최대우도추정법을 적용한다. 최대우도추정법의 핵심은 보유하고 있는 우승 여부인 의존변수를 가장 잘 보여주는 예측 변수의 모수를 찾아서 예측모델을 만들고, 예측 변수 조건에 따라 종속 변수 발생 가능성을 예측하는것이다. 예측 해야하는 종속 변수는 1(우승) 또는 0(비우승) 두 가지의 결과만을 갖는 이항 변수라서, 로지스틱 회귀분석에서 특정 예측 변수가 종속 변수의 발생어부를 확실히 구분할수 있는 경우 예측 능력을 가진 것으로 볼 수 있다. 어떤 지표가 우승에 영향을 줄까? 장타율, 수비력, 출루율, 방어율? 오늘은 방어율에 따른 우승 가능성을 확인한다. library(Lahman) a 2014&yearID
2021.07.27 -
긍정오류와 부정오류
긍정오류란 없는데 있다고 하는 오류이다. 부정오류란 있는데 없다고 하는 오류이다. 말만 들으면 무슨말인지 어려울수도 있다. 예를 들어보면 야구심판들이 스트라이크가 아닌데 스트라이크 라고 잘못 판단하는 오류는 긍정오류 스트라이크가 맞는데 아니라고 판단하는 오류는 부정오류이다. 긍정오류든 부정오류든 오류가 높을수록 분석에 사용된 요인과 모델은 배제할 필요가 있다. 판별을 위해 일반적으로 많이 사용되는 세가지 모델이 있다. 1. 선형판별 2. 비선형 2차함수 판별 3. KNN 선형판별과 비선형 판별은 모수 판별분석이라서 현실에 대한 가정이 필요하다. KNN은 현실에 대한 가정이 필요하지 않고 데이터를 통해 그려지는 경계선을 그린다. 그릴땐 가장 가까운 K개 점들의 거리를 고려해서 그려낸다. KNN의 약점은 오..
2021.07.21