로지스틱 회귀 예제

물류 회귀는 이항, 서수 또는 다항식일 수 있습니다. 이항 또는 이진 로지스틱 회귀는 종속 변수에 대해 관찰된 결과가 “0” 및 “1”이라는 두 가지 유형(예: “죽은” 대 “살아 있는” 또는 “승리” 대 “손실”)을 가질 수 있는 상황을 다룹니다. 다항 물류 회귀는 결과가 주문되지 않은 3가지 이상의 가능한 유형(예: “질병 A” 대 “질병 B” 대 “질병 C”)을 가질 수 있는 상황을 다룹니다. 서수 로지스틱 회귀는 정렬된 종속 변수를 다룹니다. 데이터에서 β i {displaystyle beta _{i}} 매개 변수를 추정하려면 로지스틱 회귀를 수행해야 합니다. 아가왈, A. “물류 회귀. 단순화”. 데이터 사이언스 그룹 IITR. https://medium.com/data-science-group-iitr/logistic-regression-simplified-9b4efe801389 오버 피팅. 로지스틱 회귀 해석에 대한 모델을 선택할 때 또 다른 중요한 고려 사항은 모델 적합입니다. 로지스틱 회귀 모델에 독립 변수를 추가하면 항상 로그 배당률에 설명된 분산 의 양이 증가합니다(일반적으로 R²로 표시). 그러나 모델에 더 많은 변수를 추가하면 과적합이 발생할 수 있으며, 이로 인해 모델이 맞는 데이터 이상으로 모델의 일반화 가능성이 줄어듭니다.

이 로지스틱 회귀 선은 그래프에 표시됩니다. 부드러운 S자 모양이 있습니다. 모든 로지스틱 회귀 방정식에는 S자형이 있지만 좁은 값 범위를 살펴보면 명확하지 않을 수 있습니다. 또한 단방향 anova 또는 학생의 t-test를 사용하여 하나의 명목 및 하나의 측정 변수로 데이터를 분석할 수 있으며 그 차이는 미묘할 수 있습니다. 한 가지 단서는 로지스틱 회귀를 통해 명목 변수의 확률을 예측할 수 있다는 것입니다. 예를 들어, 55세 여성의 혈액에서 콜레스테롤 수치를 측정한 다음 10년 후에 누가 심장 마비를 겪었는지 알아본다고 가정해 보십시오. 당신은 두 샘플 t-테스트를 할 수 있습니다., 심장 발작을 했다 여자의 콜레스테롤 수치를 비교. 그렇지 않은 사람들, 그리고 그 콜레스테롤 수치가 심장 발작과 관련 되지 않습니다 null 가설을 테스트 하는 완벽 하 게 합리적인 방법이 될 것 이다; 가설 테스트가 관심 있는 전부라면 t-test는 익숙하지 않은 로지스틱 회귀보다 더 좋을 것입니다.

그러나 특정 콜레스테롤 수치를 가진 55세 여성이 향후 10년 동안 심장 마비를 앓을 확률을 예측하고 싶다면 의사가 환자에게 “콜레스테롤을 40포인트 줄이면 콜레스테롤을 줄일 수 있습니다. X%에 의한 심장 마비의 위험”이라며 물류 회귀를 사용해야 합니다. 간단한 로지스틱 회귀는 관측치가 독립적이라고 가정합니다. 즉, 한 관찰이 다른 관측값에 영향을 미치지 않는다는 것입니다. 코모도 드래곤의 예에서, 30°C의 모든 알을 한 어머니에 의해 낳고, 32°C의 모든 알이 다른 어머니에 의해 놓이면 관측이 독립적이지 않을 것입니다. 실험을 잘 디자인하는 경우 이 가정에 문제가 없습니다. 로지스틱 회귀 계수는 계수 b0, b1, b2, … 회귀 방정식의 bk: 로지스틱 회귀는 일반화된 선형 모델의 특수한 경우로 볼 수 있으므로 선형 회귀와 유사합니다. 그러나 로지스틱 회귀 모델은 선형 회귀 모델과는 매우 다른 가정(종속 변수와 독립 변수 간의 관계)을 기반으로 합니다. 특히, 이 두 모델의 주요 차이점은 로지스틱 회귀의 다음 두 가지 특징에서 볼 수 있습니다.

첫째, 조건부 분포 y 디스플레이 스타일 ymid x}는 종속 변수가 바이너리이기 때문에 가우시안 분포가 아닌 베르누이 분포입니다. 둘째, 예측된 값은 확률이므로 로지스틱 회귀는 결과 자체가 아닌 특정 결과의 확률을 예측하기 때문에 로지스틱 배포 함수를 통해 (0,1)로 제한됩니다.