업종 분류
대분류, 중분류, 소분류
미국 업종분
변수 명 | 타입 | 설명 | 결측치 개수 | 부가 설명 | 전처리 필요 |
---|---|---|---|---|---|
name | object | 사업체의 이름 | 4 | ||
address | object | 사업체의 주소 | 318 | 주소 분리해 볼 필요가 있음 | 세부 주소를 |
지역을 분할해서 좀더 단순히 변환 필요 | |||||
gamp_id | object | 구글 맵 ID | 0 | ||
description | object | 설명 | 15733 | ||
latitude | float | 위도 | 0 | ||
longitude | float | 경도 | 0 | ||
category | object | 카테고리 | 72 | ex)[Resturant, Coffee shop]⇒ 리스트 형태, 값을 여러개 받음 | Resturant 데이터도 앞뒤에 다른 단어들이 붙어있는 데이터 처리 |
avg_rating | float | 평균 평점 | 0 | 반올림 처리 | |
num_of_reviews | int | 리뷰 개수 | 0 | ||
price | object | 가격 | 17477 | 거의 내다버린 데이터 =⇒제가 봤을땐 none,$,$$들로 값 구성 다른 분들 확인요망 | 라벨 인코딩 |
hours | object | 영업 시간 | 5325 | ex)[[Thursday, 11AM–8PM], [Friday, 11AM–8PM]] ⇒ 리스트 형태 , 요일 순서는 다다름 |
운영 시간대, |
브레이크 타임, | |||||
휴일 정보 등 |
분석한 기준에 따라 전처리 필요 |
| MISC | object | 기타정보 | 4447 | ex){'Service options': ['Takeout', 'Delivery'], 'Popular for': ['Lunch', 'Dinner', 'Solo dining']}
⇒ dict안에 리스트 | union 할때 구조가 안 맞아서 병합이 안됨
구조를 맞춰야 병합 가능 |
| state | object | 현재 상태 | 7270 | ex) Closed ⋅ Opens 11AM
⇒ 데이터를 수집했을 당시의 상태를 말 하는 것 같은데 확실하지 않음 | 현재랑 데이터가 일치하지 않은것들을 어떻게 처리할지,, |
| relative_results | object | 구글 추천 관련 사업체 | 2191 | ex)[’구글맵ID’,’구글맵ID’….]
⇒ 리스트 형태 | |
| url | object | 사업체 URL | 0 | url | |
# 기술 통계량
print(meta_data.describe(include='all'))
반올림 적용
평점 4점 이상이 높은 비율을 차지하고 있음
가설 : 가격과 평점은 상관관계가 있을것이라고 예측
결과 :