-
IMDB ์ํ ๋ฆฌ๋ทฐ ๊ฐ์ ๋ถ์ ํ๋ก์ ํธ ์ ๋ฆฌ ๋ฐ ์ถํ ๋ฉด์ ๋๋นAI/NLP 2024. 12. 19. 21:37
1ํ๋ 2ํ๊ธฐ ์์ ์ ๋ง๋ฌด๋ฆฌํ๋ฉฐ, ํ๋์ ์ ๋ฆฌํด๋ณด๋ ค ํ๋ค.
AI๋ฅผ ์ํ ํต๊ณํ ์๊ฐ์ ์์ฑํ ๊ฐ์ธ ๋ถ์ ๋ณด๊ณ ์์ ๋ํ ํ๊ธ ์ค๋ช ๋ฐ ๋ฉด์ ์ง๋ฌธ์ ์์ํด ์ค๋นํด๋ณด์๋ค.
(๊นํ๋ธ์ ์๋ฌธ์ผ๋ก README๋ฅผ ์์ฑํด๋์๋ค.)ํ๋ก์ ํธ ๊นํ๋ธ ๋งํฌ : https://github.com/Yerin99/IMDB-Movie-Review-Sentiment-Analysis
GitHub - Yerin99/IMDB-Movie-Review-Sentiment-Analysis: AI ๋ํ์ 1-2 [AI๋ฅผ ์ํ ํต๊ณํ] ๊ฐ์ธ ๋ถ์ ๋ณด๊ณ ์ : ์
AI ๋ํ์ 1-2 [AI๋ฅผ ์ํ ํต๊ณํ] ๊ฐ์ธ ๋ถ์ ๋ณด๊ณ ์ : ์ํ ๋ฆฌ๋ทฐ ๊ฐ์ ๋ถ์. Contribute to Yerin99/IMDB-Movie-Review-Sentiment-Analysis development by creating an account on GitHub.
github.com
ํ๋ก์ ํธ ๊ฐ์
IMDB ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ํ ์คํธ ๊ฐ์ ๋ถ์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ , ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ(Logistic Regression, Random Forest, Naive Bayes)์ ํตํด ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค. Logistic Regression ๋ชจ๋ธ์ ํ ์คํธ ๋ถ์์์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ ํ๋ ๋ฉด์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ํ์ฉํด ๊ธ์ ๋ฐ ๋ถ์ ๊ฐ์ ์ ์ํฅ์ ๋ฏธ์น๋ ์ฃผ์ ๋จ์ด๋ฅผ ํ์ ํ ์ ์์์ต๋๋ค.
์ Logistic Regression์ ์ ํํ๋๊ฐ?
1. ํด์ ๊ฐ๋ฅ์ฑ
Logistic Regression์ ์ ํ ๋ชจ๋ธ๋ก, ๊ฐ ํน์ฑ(feature)์ ๋ํ ๊ฐ์ค์น(coefficient)๋ฅผ ์ ๊ณต
- ํน์ ๋จ์ด๊ฐ ๊ธ์ ์ /๋ถ์ ์ ๊ฐ์ ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง ์ ๋์ ํด์์ด ๊ฐ๋ฅ
- ์๋ฅผ ๋ค์ด, "excellent", "perfect"๋ ๊ธ์ ์ ์ธ ๋จ์ด๋ก ๊ฐํ ์ํฅ์ ์ฃผ๋ฉฐ, "worst", "awful"์ ๋ถ์ ์ ์ธ ๋จ์ด๋ก ์ค์ํ ์ญํ
2. ํ ์คํธ ๋ฐ์ดํฐ์์ ์ ํฉ์ฑ
- ํ ์คํธ ๋ถ์์์ TF-IDF๋ก ๋ฒกํฐํ๋ ๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ํฌ์ ํ๋ ฌ์ ํ์ฑํจ
- Logistic Regression์ ํฌ์ ๋ฐ์ดํฐ์์ ํจ์จ์ ์ผ๋ก ์๋ํ๋ฉฐ, ๊ณผ์ ํฉ(overfitting) ์ํ์ด ์๋์ ์ผ๋ก ๋ฎ์
3. ์ฑ๋ฅ ๋น๊ต ๊ฒฐ๊ณผ
๋ชจ๋ธ ์ ํ๋ (Accuracy) Logistic Regression 89.7% Random Forest 85.3% Naive Bayes 85.8% - Logistic Regression์ ์ธ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ณด์
- ํนํ, Recall(์ฌํ์จ)๊ณผ F1-Score์์๋ ๊ณ ๋ฅด๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์
์ Random Forest์ Naive Bayes๊ฐ Logistic Regression๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ก์๊น?
1. Random Forest
- ํน์ง: Random Forest๋ ๋น์ ํ ๋ชจ๋ธ๋ก, ํ ์คํธ ๋ฐ์ดํฐ์ ๊ฐ์ ๊ณ ์ฐจ์ ํฌ์ ํ๋ ฌ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ต์ ํ๋์ง ์์
- ๋ฌธ์ ์ :
- ํ ์คํธ ๋ฐ์ดํฐ์ ํน์ฑ ๊ฐ์(10,000๊ฐ ์ด์)๊ฐ ๋ง์์ง์๋ก ํธ๋ฆฌ ๋ชจ๋ธ์ ํ์ต์ด ์ด๋ ค์์ง (์ด๋ฒ์ ํด๋น X)
- TF-IDF๋ก ๋ฒกํฐํ๋ ํน์ฑ ๊ฐ์ ์ํธ์์ฉ์ ํจ๊ณผ์ ์ผ๋ก ์บก์ฒํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ํผ
- ๊ฒฐ๋ก : Random Forest๋ ์ฃผ๋ก ์ ํ ๋ฐ์ดํฐ์์ ๊ฐ์ ์ ๋ณด์ด๋ฉฐ, ํฌ์ ํ ์คํธ ๋ฐ์ดํฐ์์๋ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์์
2. Naive Bayes
- ํน์ง: Naive Bayes๋ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ํจ
- ๋ฌธ์ ์ :
- ํ ์คํธ ๋ฐ์ดํฐ์์ ๋จ์ด ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ฌด์ํ๊ธฐ ๋๋ฌธ์ ๋ณต์กํ ํจํด์ ํ์ตํ์ง ๋ชปํจ
- ex) "not bad" ๊ฐ์ ๊ตฌ๋ฌธ์์ "not"๊ณผ "bad"์ ์กฐํฉ์ ํ์ตํ์ง ๋ชปํ๊ณ , "bad"๋ฅผ ๋ถ์ ์ ์ผ๋ก๋ง ์ฒ๋ฆฌํ ๊ฐ๋ฅ์ฑ์ด ํผ
- ๊ฒฐ๋ก : Naive Bayes๋ ๋จ์ํ๊ณ ๋น ๋ฅด์ง๋ง, ๋จ์ด ๊ฐ์ ์์กด ๊ด๊ณ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํจ
๋ฉด์ ๋๋น ์ง๋ฌธ๊ณผ ๋ต๋ณ
Q1. Logistic Regression์ ์ ํํ ์ด์ ๋ ๋ฌด์์ธ๊ฐ์?
Logistic Regression์ ์ ํ ๋ชจ๋ธ๋ก, ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ TF-IDF ๋ฐฉ์์ผ๋ก ๋ฒกํฐํํ์ ๋ ํน์ฑ์ ์ค์๋๋ฅผ ํด์ํ๊ธฐ์ ์ ํฉํฉ๋๋ค. ๊ฐ์ค์น (coefficient) ๋ฅผ ํตํด ๊ธ์ ์ / ๋ถ์ ์ ๋จ์ด์ ์ํฅ์ ์ ๋์ ์ผ๋ก ๋ถ์ํ ์ ์์ผ๋ฉฐ, ํฌ์ ๋ฐ์ดํฐ์์๋ ์์ ์ ์ผ๋ก ์๋ํฉ๋๋ค. ๋ํ, ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค ๋์ ์ ํ๋์ ์ฌํ์จ์ ๋ณด์ฌ ์ต์ข ์ ํํ์ต๋๋ค.
Q2. ์ค์ฌ ๊ทนํ ์ ๋ฆฌ์ ๋ํด ์ค๋ช ํด๋ณด์ธ์.
์ค์ฌ ๊ทนํ ์ ๋ฆฌ (Central Limit Theorem, CLT) ๋ ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ถฉ๋ถํ ํด ๊ฒฝ์ฐ, ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ๋ชจ์ง๋จ์ ๋ถํฌ ํํ์ ๊ด๊ณ์์ด ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ค๋ ํต๊ณํ์ ์๋ฆฌ์ ๋๋ค.
Q3. CLT ์คํ์ ๋ชฉ์ ์ ๋ฌด์์ธ๊ฐ์?
๋ถ์กฑํ ๋ต๋ณ์ด๋ผ๊ณ ์๊ฐ์ด ๋๋, ์ค์ฌ ๊ทนํ ์ ๋ฆฌ๋ฅผ ์ด๋ก ์ ์ผ๋ก๊ฐ ์๋ ์ํ ๋ฆฌ๋ทฐ๋ผ๋ ์ค์ ๋ฐ์ดํฐ์์๋ ์ค์ ๋ก ์ ์ฉ๋๋์ง ํ์ธํ๊ณ ์ถ์์ต๋๋ค. ์ํ๋งํ๋ ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ปค์ง ์๋ก ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ก ์๋ ดํ๋์ง๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ธํด๋ณด๊ณ ์ถ์์ต๋๋ค. ์ด๋ฒ ํ๋ก์ ํธ์์๋ ๋ฆฌ๋ทฐ ๊ธธ์ด, ๋ถ์ ์ด ์ฌ์ฉ ๊ฐ์, ๊ฐํ์ฌ ๊ฐ์์ ๋ํด CLT ์คํ์ ์ํํ์ต๋๋ค. ํ๋ณธ ํฌ๊ธฐ๊ฐ ์์ ๋๋ ๋ถํฌ์ ๋ถ์ฐ์ด ํฌ์ง๋ง, ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
Q4. Logistic Regression์ ํ๊ณ์ ์ ๋ฌด์์ธ๊ฐ์?
Logistic Regression์ ์ ํ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ์ ๋น์ ํ ๊ด๊ณ๊ฐ ์กด์ฌํ ๊ฒฝ์ฐ ์ด๋ฅผ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํฉ๋๋ค. ๋ํ, ๊ณผ๋ํ ํน์ฑ ๊ฐ ์๊ด๊ด๊ณ (Multicollinearity, ๋ ๊ฐ ์ด์์ ๋ ๋ฆฝ ๋ณ์๊ฐ ๊ฐํ ์๊ด๊ด๊ณ) ๊ฐ ์์ ๊ฒฝ์ฐ, Logistic Regression๊ณผ ๊ฐ์ ์ ํ ๋ชจ๋ธ์์ ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ์ด ๋จ์ด์ง ์ ์์ต๋๋ค. Multicollinearity ๋ฌธ์ ๋ feature selection (๋์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง ๋ณ์ ์ค ํ๋๋ง ์ ํ), ์ ๊ทํ (Ridge Regression๊ณผ ๊ฐ์ L2 ์ ๊ทํ ์ถ๊ฐ ๊ธฐ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ๊ณ์ ์ ์ด) ๋๋ PCA (์๊ด๊ด๊ณ๊ฐ ๋์ ๋ณ์๋ฅผ ์์ถํ์ฌ ํ๋์ ์ฃผ์ฑ๋ถ์ผ๋ก ๋ณํ) ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค.
'AI > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ