업종 분류

대분류, 중분류, 소분류

미국 업종분

meta-data

변수 명 타입 설명 결측치 개수 부가 설명 전처리 필요
name object 사업체의 이름 4
address object 사업체의 주소 318 주소 분리해 볼 필요가 있음 세부 주소를
지역을 분할해서 좀더 단순히 변환 필요
gamp_id object 구글 맵 ID 0
description object 설명 15733
latitude float 위도 0
longitude float 경도 0
category object 카테고리 72 ex)[Resturant, Coffee shop]⇒ 리스트 형태, 값을 여러개 받음 Resturant 데이터도 앞뒤에 다른 단어들이 붙어있는 데이터 처리
avg_rating float 평균 평점 0 반올림 처리
num_of_reviews int 리뷰 개수 0
price object 가격 17477 거의 내다버린 데이터 =⇒제가 봤을땐 none,$,$$들로 값 구성 다른 분들 확인요망 라벨 인코딩
hours object 영업 시간 5325 ex)[[Thursday, 11AM–8PM], [Friday, 11AM–8PM]] ⇒ 리스트 형태 , 요일 순서는 다다름 운영 시간대,
브레이크 타임,
휴일 정보 등

분석한 기준에 따라 전처리 필요 | | MISC | object | 기타정보 | 4447 | ex){'Service options': ['Takeout', 'Delivery'], 'Popular for': ['Lunch', 'Dinner', 'Solo dining']} ⇒ dict안에 리스트 | union 할때 구조가 안 맞아서 병합이 안됨

구조를 맞춰야 병합 가능 | | state | object | 현재 상태 | 7270 | ex) Closed ⋅ Opens 11AM⇒ 데이터를 수집했을 당시의 상태를 말 하는 것 같은데 확실하지 않음 | 현재랑 데이터가 일치하지 않은것들을 어떻게 처리할지,, | | relative_results | object | 구글 추천 관련 사업체 | 2191 | ex)[’구글맵ID’,’구글맵ID’….] ⇒ 리스트 형태 | | | url | object | 사업체 URL | 0 | url | |

# 기술 통계량
print(meta_data.describe(include='all'))

Untitled

평균 평점의 분포도

Untitled

반올림 적용

Untitled

평점 4점 이상이 높은 비율을 차지하고 있음

avg_rating과 price의 상관계수

가설 : 가격과 평점은 상관관계가 있을것이라고 예측

결과 :