-
[ML] ํผ์ ๊ณต๋ถํ๋ ๋จธ์ ๋ฌ๋+ ๋ฅ๋ฌ๋ Ch02 ๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ
2024. 3. 17.
Chapter02 ๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ
02-1 ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ
์ง๋ ํ์ต๊ณผ ๋น์ง๋ ํ์ต
์ง๋ ํ์ต
- ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ต์ด ํ์
- ๋ฐ์ดํฐ - ์ ๋ ฅ, ์ ๋ต - ํ๊ฒ. ์ ๋ ฅ + ํ๊ฒ = ํ๋ จ ๋ฐ์ดํฐ
- ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ ๊ธธ์ด, ๋ฌด๊ฒ → ํน์ฑ
- ์ ๋ต์ด ์กด์ฌํ๋ฏ๋ก ์ ๋ต์ ๋งํ๋ ๊ฒ์ ํ์ต ex) KNN-์๊ณ ๋ฆฌ์ฆ
๋น์ง๋ ํ์ต
- ํ๊ฒ ์์ด ์ ๋ ฅ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ → ์ ๋ต์ ๋ง์ถ์ง x
๊ฐํ ํ์ต
- ํ๊ฒ์ด ์๋ ์๊ณ ๋ฆฌ์ฆ์ด ํ๋ํ ๊ฒฐ๊ณผ๋ก ์ป์ ๋ณด์์ ํตํด ํ์ต
ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ
- ํ
์คํธ ์ธํธ: ํ๊ฐ์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ
- ์ ์ฒด ๋ฐ์ดํฐ์ 20~30% ์ ๋
- ํ๋ จ ์ธํธ: ํ๋ จ์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
- ํด์๋ก ์ข์
- ์ ์ ํ ์ฑ๋ฅ ํ๊ฐ๋ ํ๋ จ ์ธํธ์ ํ
์คํธ ์ธํธ๊ฐ ๋ฌ๋ผ์ผ ํจ.
- (Ch1์ ๊ฒฝ์ฐ ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ๊ฐ ๋์ผ)
- ์ํ : ํ๋์ ๋ฐ์ดํฐ
์ํ๋ง ํธํฅ
- ํ๋ จ ์ธํธ์ ํ
์คํธ ์ธํธ์ ์ํ์ด ๊ณจ๊ณ ๋ฃจ ์์ฌ ์์ง ์์ ๋
- ex) ๋๋ฏธ์ ๋น์ด๋ฅผ ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ๋๋ฏธ ๋ฐ์ดํฐ๋ก๋ง ํ๋ จ
- ์ด๋ฌํ ์๋ ํ์๋ฅผ ์ฒ๋ฆฌ ⇒ ๋ํ์ด
๋ํ์ด
- ํ์ด์ฌ์ ๋ฐฐ์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ. ๊ณ ์ฐจ์ ๋ฐฐ์ด์ ์์ฝ๊ฒ ์กฐ์ ๊ฐ๋ฅ
- ์์์ ์ด ์ผ์ชฝ ์์์๋ถํฐ ์์
- arr() : ๋ฆฌ์คํธ → ๋ฐฐ์ด
- array.shape : ๋ฐฐ์ด์ ํฌ๊ธฐ (์ํ ์, ํน์ฑ ์) ์ถ๋ ฅ
- input_arr์ target_arr์์ ๊ฐ์ ์์น๋ ํจ๊ป ์ ํ๋์ด์ผ ํจ ⇒ ์ธ๋ฑ์ค
- seed() : ๋์๋ฅผ ์์ฑํ๊ธฐ ์ํ ์ ์ ์ด๊น๊ฐ ์ง์
- arrange() : ์ผ์ ํ ๊ฐ๊ฒฉ์ ๋ฐฐ์ด ์์ฑ
- shuffle() : ๋ฐฐ์ด ๋ฌด์์ ์ ํ
- ๋ฐฐ์ด ์ธ๋ฑ์ฑ ๊ธฐ๋ฅ ์ ๊ณต
๋ ๋ฒ์งธ ๋จธ์ ๋ฌ๋ ํ๋ก๊ทธ๋จ
์ ๋๋ก ๋ง๋ ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ๋ก KNN ๋ชจ๋ธ ํ๋ จ
kn=kn.fit(train_input, train_target) kn.score(test_input,test_target) kn.predict(test_input) test_target # ๋ํ์ด ๋ฐฐ์ด์ ๋ฐํ
ํ๋ จ ๋ชจ๋ธ ํ๊ฐ
- ํ๋ จ์ ์ฐธ์ฌํ์ง ์์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ๊ฐํด์ผ ํจ.
02-2 ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (data processing) : ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ํ๊ธฐ ์ ๊ฐ๊ณตํ๋ ๋จ๊ณ. ํน์ฑ๊ฐ์ ์ผ์ ํ ๊ธฐ์ค์ผ๋ก ๋ง์ถ์ด ์ฃผ๋ ์์
- column_stack() : ์ ๋ฌ๋ฐ์ ๋ฆฌ์คํธ๋ฅผ ์ผ๋ ฌ๋ก ์ธ์ด ๋ค์ ์ฐจ๋ก๋๋ก ๋๋ํ ์ฐ๊ฒฐ
- np.ones() / np.zeros() : ์ํ๋ ๊ฐ์์ 1๊ณผ 0์ ์ฑ์ด ๋ฐฐ์ด์ ์์ฑ
- np.concatenate() : ๋ฐฐ์ด์ ์ฐ๊ฒฐ
์ฌ์ดํท๋ฐ์ผ๋ก ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ ๋๋๊ธฐ
- tran_test_split() : ์ ํ & ๋น์จ์ ๋ง๊ฒ ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ ๊ตฌ๋ถ
- stratify ๋งค๊ฐ๋ณ์ : ํ๊น ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ๋ฉด ํด๋์ค ๋น์จ์ ๋ง๊ฒ ๋ฐ์ดํฐ๋ฅผ ์์ฑ
- xlim() / ylim() : matplotlib์์ x์ถ ๋ฒ์, y์ถ ๋ฒ์ ์ง์
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ: ์ํ ๊ฐ ๊ฑฐ๋ฆฌ์ ์ํฅ์ ๋ง์ด ๋ฐ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ ํน์ฑ๊ฐ์ ์ผ์ ํ ๊ธฐ์ค์ผ๋ก ๋ง์ถ์ด ์ฃผ์ด์ผ ํจ.
- (๋ชจ๋ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ธ ๊ฒ์ ์๋)
- ํ์ค ์ ์ : ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉํ๋ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
- ๊ฐ ํน์ฑ๊ฐ์ด 0์์ ํ์ค ํธ์ฐจ์ ๋ช ๋ฐฐ๋งํผ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ํ๋.
- np.mean() : ํ๊ท ๊ณ์ฐ
- np.std() : ํ์คํธ์ฐจ ๊ณ์ฐ
- ๋ธ๋ก๋ ์บ์คํ : ์กฐ๊ฑด์ ๋ง์กฑํ๋ฉด ๋ค๋ฅธ ๋ฐฐ์ด ๊ฐ์ ์ฐ์ฐ์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ ๊ธฐ๋ฅ
'๐ญ Study > : Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋๊ธ
- ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ต์ด ํ์