Python for Data Science
Education
Π£ΡΠ΅Π±Π½ΡΠ΅ Π·Π°Π΄Π°Π½ΠΈΡ Π½Π° ΠΏΠΎΡΡΠ°Π»Π΅ GeekBrains.
- ΠΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ Numpy ΠΈ Π΄Π°ΠΉΡΠ΅ Π΅ΠΉ ΠΏΡΠ΅Π²Π΄ΠΎΠ½ΠΈΠΌ np. Π‘ΠΎΠ·Π΄Π°ΡΡ ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² Numpy ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ a ΠΈΠ· 12 ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΡ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π» ΡΠΈΡΠ΅Π» ΠΎΡ 12 Π΄ΠΎ 24 Π½Π΅Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π‘ΠΎΠ·Π΄Π°ΡΡ 5 Π΄Π²ΡΠΌΠ΅ΡΠ½ΡΡ ΠΌΠ°ΡΡΠΈΠ²ΠΎΠ² ΡΠ°Π·Π½ΠΎΠΉ ΡΠΎΡΠΌΡ ΠΈΠ· ΠΌΠ°ΡΡΠΈΠ²Π° a. ΠΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π² Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ°Ρ ΠΌΠ΅ΡΠΎΠ΄Π° reshape ΡΠΈΡΠ»ΠΎ -1. Π‘ΠΎΠ·Π΄Π°ΡΡ 5 Π΄Π²ΡΠΌΠ΅ΡΠ½ΡΡ ΠΌΠ°ΡΡΠΈΠ²ΠΎΠ² ΡΠ°Π·Π½ΠΎΠΉ ΡΠΎΡΠΌΡ ΠΈΠ· ΠΌΠ°ΡΡΠΈΠ²Π° a. ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π² Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ°Ρ ΠΌΠ΅ΡΠΎΠ΄Π° reshape ΡΠΈΡΠ»ΠΎ -1 (Π² ΡΡΠ΅Ρ ΠΏΡΠΈΠΌΠ΅ΡΠ°Ρ - Π΄Π»Ρ ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΠΈΡΠ»Π° ΡΡΠΎΠ»Π±ΡΠΎΠ², Π² Π΄Π²ΡΡ - Π΄Π»Ρ ΡΡΡΠΎΠΊ). ΠΠΎΠΆΠ½ΠΎ Π»ΠΈ ΠΌΠ°ΡΡΠΈΠ² Numpy, ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡΡΠΎΠ»Π±ΡΠ° ΠΈ 12 ΡΡΡΠΎΠΊ, Π½Π°Π·Π²Π°ΡΡ ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΌ?
- Π‘ΠΎΠ·Π΄Π°ΡΡ ΠΌΠ°ΡΡΠΈΠ² ΠΈΠ· 3 ΡΡΡΠΎΠΊ ΠΈ 4 ΡΡΠΎΠ»Π±ΡΠΎΠ², ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· ΡΠ»ΡΡΠ°ΠΉΠ½ΡΡ ΡΠΈΡΠ΅Π» Ρ ΠΏΠ»Π°Π²Π°ΡΡΠ΅ΠΉ Π·Π°ΠΏΡΡΠΎΠΉ ΠΈΠ· Π½ΠΎΡΠΌΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΡΠΎ ΡΡΠ΅Π΄Π½ΠΈΠΌ, ΡΠ°Π²Π½ΡΠΌ 0 ΠΈ ΡΡΠ΅Π΄Π½Π΅ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½ΡΠΌ ΠΎΡΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ΠΌ, ΡΠ°Π²Π½ΡΠΌ 1.0. ΠΠΎΠ»ΡΡΠΈΡΡ ΠΈΠ· ΡΡΠΎΠ³ΠΎ ΠΌΠ°ΡΡΠΈΠ²Π° ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² Ρ ΡΠ°ΠΊΠΈΠΌ ΠΆΠ΅ Π°ΡΡΠΈΠ±ΡΡΠΎΠΌ size, ΠΊΠ°ΠΊ ΠΈ ΠΈΡΡ ΠΎΠ΄Π½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ².
- Π‘ΠΎΠ·Π΄Π°ΡΡ ΠΌΠ°ΡΡΠΈΠ² a, ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π», ΡΠ±ΡΠ²Π°ΡΡΠΈΡ ΠΎΡ 20 Π΄ΠΎ 0 Π½Π΅Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Ρ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»ΠΎΠΌ 2. Π‘ΠΎΠ·Π΄Π°ΡΡ ΠΌΠ°ΡΡΠΈΠ² b, ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· 1 ΡΡΡΠΎΠΊΠΈ ΠΈ 10 ΡΡΠΎΠ»Π±ΡΠΎΠ²: ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π», ΡΠ±ΡΠ²Π°ΡΡΠΈΡ ΠΎΡ 20 Π΄ΠΎ 1 Π½Π΅Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Ρ ΠΈΠ½ΡΠ΅ΡΠ²Π°Π»ΠΎΠΌ 2. Π ΡΠ΅ΠΌ ΡΠ°Π·Π½ΠΈΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ ΠΌΠ°ΡΡΠΈΠ²Π°ΠΌΠΈ a ΠΈ b?
- ΠΠ΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΠΎ ΡΠΎΠ΅Π΄ΠΈΠ½ΠΈΡΡ ΠΌΠ°ΡΡΠΈΠ²Ρ a ΠΈ b. a - Π΄Π²ΡΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² ΠΈΠ· Π½ΡΠ»Π΅ΠΉ, ΡΠΈΡΠ»ΠΎ ΡΡΡΠΎΠΊ ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ Π±ΠΎΠ»ΡΡΠ΅ 1 ΠΈ Π½Π° 1 ΠΌΠ΅Π½ΡΡΠ΅, ΡΠ΅ΠΌ ΡΠΈΡΠ»ΠΎ ΡΡΡΠΎΠΊ Π΄Π²ΡΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΠΌΠ°ΡΡΠΈΠ²Π° b, ΡΠΎΡΡΠΎΡΡΠ΅Π³ΠΎ ΠΈΠ· Π΅Π΄ΠΈΠ½ΠΈΡ. ΠΡΠΎΠ³ΠΎΠ²ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² v Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΈΠΌΠ΅ΡΡ Π°ΡΡΠΈΠ±ΡΡ size, ΡΠ°Π²Π½ΡΠΉ 10.
- Π‘ΠΎΠ·Π΄Π°ΡΡ ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² Π°, ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π» ΠΎΡ 0 Π΄ΠΎ 12. ΠΠΎΠΌΠ΅Π½ΡΡΡ ΡΠΎΡΠΌΡ ΡΡΠΎΠ³ΠΎ ΠΌΠ°ΡΡΠΈΠ²Π°, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΠ»Π°ΡΡ ΠΌΠ°ΡΡΠΈΡΠ° A (Π΄Π²ΡΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² Numpy), ΡΠΎΡΡΠΎΡΡΠ°Ρ ΠΈΠ· 4 ΡΡΡΠΎΠΊ ΠΈ 3 ΡΡΠΎΠ»Π±ΡΠΎΠ². ΠΠΎΠ»ΡΡΠΈΡΡ ΠΌΠ°ΡΡΠΈΡΡ At ΠΏΡΡΠ΅ΠΌ ΡΡΠ°Π½ΡΠΏΠΎΠ½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΌΠ°ΡΡΠΈΡΡ A. ΠΠΎΠ»ΡΡΠΈΡΡ ΠΌΠ°ΡΡΠΈΡΡ B, ΡΠΌΠ½ΠΎΠΆΠΈΠ² ΠΌΠ°ΡΡΠΈΡΡ A Π½Π° ΠΌΠ°ΡΡΠΈΡΡ At Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ°ΡΡΠΈΡΠ½ΠΎΠ³ΠΎ ΡΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΡ. ΠΠ°ΠΊΠΎΠΉ ΡΠ°Π·ΠΌΠ΅Ρ ΠΈΠΌΠ΅Π΅Ρ ΠΌΠ°ΡΡΠΈΡΠ° B? ΠΠΎΠ»ΡΡΠΈΡΡΡ Π»ΠΈ Π²ΡΡΠΈΡΠ»ΠΈΡΡ ΠΎΠ±ΡΠ°ΡΠ½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ Π΄Π»Ρ ΠΌΠ°ΡΡΠΈΡΡ B ΠΈ ΠΏΠΎΡΠ΅ΠΌΡ?
- ΠΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΡΠΉΡΠ΅ Π³Π΅Π½Π΅ΡΠ°ΡΠΎΡ ΡΠ»ΡΡΠ°ΠΉΠ½ΡΡ ΡΠΈΡΠ»Π΅ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° seed, ΡΠ°Π²Π½ΠΎΠ³ΠΎ 42. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² c, ΡΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΡΠΉ ΠΈΠ· ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ 16-ΡΠΈ ΡΠ»ΡΡΠ°ΠΉΠ½ΡΡ ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΡΡ ΡΠ΅Π»ΡΡ ΡΠΈΡΠ΅Π» ΠΎΡ 0 Π΄ΠΎ 16 Π½Π΅Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ. ΠΠΎΠΌΠ΅Π½ΡΠΉΡΠ΅ Π΅Π³ΠΎ ΡΠΎΡΠΌΡ ΡΠ°ΠΊ, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΠ»Π°ΡΡ ΠΊΠ²Π°Π΄ΡΠ°ΡΠ½Π°Ρ ΠΌΠ°ΡΡΠΈΡΠ° C. ΠΠΎΠ»ΡΡΠΈΡΠ΅ ΠΌΠ°ΡΡΠΈΡΡ D, ΠΏΠΎΡΠ»Π΅ΠΌΠ΅Π½ΡΠ½ΠΎ ΠΏΡΠΈΠ±Π°Π²ΠΈΠ² ΠΌΠ°ΡΡΠΈΡΡ B ΠΈΠ· ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅Π³ΠΎ Π²ΠΎΠΏΡΠΎΡΠ° ΠΊ ΠΌΠ°ΡΡΠΈΡΠ΅ C, ΡΠΌΠ½ΠΎΠΆΠ΅Π½Π½ΠΎΠΉ Π½Π° 10. ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΡΠ΅Π»Ρ, ΡΠ°Π½Π³ ΠΈ ΠΎΠ±ΡΠ°ΡΠ½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ D_inv Π΄Π»Ρ D.
- ΠΡΠΈΡΠ°Π²Π½ΡΠΉΡΠ΅ ΠΊ Π½ΡΠ»Ρ ΠΎΡΡΠΈΡΠ°ΡΠ΅Π»ΡΠ½ΡΠ΅ ΡΠΈΡΠ»Π° Π² ΠΌΠ°ΡΡΠΈΡΠ΅ D_inv, Π° ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ - ΠΊ Π΅Π΄ΠΈΠ½ΠΈΡΠ΅. Π£Π±Π΅Π΄ΠΈΡΠ΅ΡΡ, ΡΡΠΎ Π² ΠΌΠ°ΡΡΠΈΡΠ΅ D_inv ΠΎΡΡΠ°Π»ΠΈΡΡ ΡΠΎΠ»ΡΠΊΠΎ Π½ΡΠ»ΠΈ ΠΈ Π΅Π΄ΠΈΠ½ΠΈΡΡ. Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ numpy.where, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΌΠ°ΡΡΠΈΡΡ D_inv Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΌΠ°ΡΠΊΠΈ, Π° ΠΌΠ°ΡΡΠΈΡΡ B ΠΈ C - Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΎΠ² Π΄Π°Π½Π½ΡΡ , ΠΏΠΎΠ»ΡΡΠΈΡΠ΅ ΠΌΠ°ΡΡΠΈΡΡ E ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ 4x4. ΠΠ»Π΅ΠΌΠ΅Π½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ E, Π΄Π»Ρ ΠΊΠΎΡΠΎΡΡΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΠΉ ΡΠ»Π΅ΠΌΠ΅Π½Ρ ΠΌΠ°ΡΡΠΈΡΡ D_inv ΡΠ°Π²Π΅Π½ 1, Π΄ΠΎΠ»ΠΆΠ½Ρ Π±ΡΡΡ ΡΠ°Π²Π½Ρ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠ΅ΠΌΡ ΡΠ»Π΅ΠΌΠ΅Π½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ B, Π° ΡΠ»Π΅ΠΌΠ΅Π½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ E, Π΄Π»Ρ ΠΊΠΎΡΠΎΡΡΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΠΉ ΡΠ»Π΅ΠΌΠ΅Π½Ρ ΠΌΠ°ΡΡΠΈΡΡ D_inv ΡΠ°Π²Π΅Π½ 0, Π΄ΠΎΠ»ΠΆΠ½Ρ Π±ΡΡΡ ΡΠ°Π²Π½Ρ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠ΅ΠΌΡ ΡΠ»Π΅ΠΌΠ΅Π½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ C.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΠ² Numpy ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ a ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ 5x2, ΡΠΎ Π΅ΡΡΡ ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· 5 ΡΡΡΠΎΠΊ ΠΈ 2 ΡΡΠΎΠ»Π±ΡΠΎΠ². ΠΠ΅ΡΠ²ΡΠΉ ΡΡΠΎΠ»Π±Π΅Ρ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡ ΡΠΈΡΠ»Π° 1, 2, 3, 3, 1, Π° Π²ΡΠΎΡΠΎΠΉ - ΡΠΈΡΠ»Π° 6, 8, 11, 10, 7. ΠΡΠ΄Π΅ΠΌ ΡΡΠΈΡΠ°ΡΡ, ΡΡΠΎ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΡΡΠΎΠ»Π±Π΅Ρ - ΡΡΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊ, Π° ΡΡΡΠΎΠΊΠ° - Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΠ΅. ΠΠ°ΡΠ΅ΠΌ Π½Π°ΠΉΠ΄ΠΈΡΠ΅ ΡΡΠ΅Π΄Π½Π΅Π΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΡ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΌΠ΅ΡΠΎΠ΄ mean ΠΌΠ°ΡΡΠΈΠ²Π° Numpy. Π Π΅Π·ΡΠ»ΡΡΠ°Ρ Π·Π°ΠΏΠΈΡΠΈΡΠ΅ Π² ΠΌΠ°ΡΡΠΈΠ² mean_a, Π² Π½Π΅ΠΌ Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π±ΡΡΡ 2 ΡΠ»Π΅ΠΌΠ΅Π½ΡΠ°.
ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ ΠΌΠ°ΡΡΠΈΠ² a_centered, ΠΎΡΠ½ΡΠ² ΠΎΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΌΠ°ΡΡΠΈΠ²Π° Π° ΡΡΠ΅Π΄Π½ΠΈΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠ΅ΡΡ Π² ΠΌΠ°ΡΡΠΈΠ²Π΅ mean_a. ΠΡΡΠΈΡΠ»Π΅Π½ΠΈΠ΅ Π΄ΠΎΠ»ΠΆΠ½ΠΎ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΡΡΡ Π² ΠΎΠ΄Π½ΠΎ Π΄Π΅ΠΉΡΡΠ²ΠΈΠ΅. ΠΠΎΠ»ΡΡΠΈΠ²ΡΠΈΠΉΡΡ ΠΌΠ°ΡΡΠΈΠ² Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΈΠΌΠ΅ΡΡ ΡΠ°Π·ΠΌΠ΅Ρ 5x2.
ΠΠ°ΠΉΠ΄ΠΈΡΠ΅ ΡΠΊΠ°Π»ΡΡΠ½ΠΎΠ΅ ΠΏΡΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ ΡΡΠΎΠ»Π±ΡΠΎΠ² ΠΌΠ°ΡΡΠΈΠ²Π° a_centered. Π ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ Π΄ΠΎΠ»ΠΆΠ½Π° ΠΏΠΎΠ»ΡΡΠΈΡΡΡΡ Π²Π΅Π»ΠΈΡΠΈΠ½Π° a_centered_sp. ΠΠ°ΡΠ΅ΠΌ ΠΏΠΎΠ΄Π΅Π»ΠΈΡΠ΅ a_centered_sp Π½Π° N-1, Π³Π΄Π΅ N - ΡΠΈΡΠ»ΠΎ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΠΉ.
Π§ΠΈΡΠ»ΠΎ, ΠΊΠΎΡΠΎΡΠΎΠ΅ ΠΌΡ ΠΏΠΎΠ»ΡΡΠΈΠ»ΠΈ Π² ΠΊΠΎΠ½ΡΠ΅ Π·Π°Π΄Π°Π½ΠΈΡ 3 ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΠ΅ΠΉ Π΄Π²ΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΡ ΡΡ Π² ΠΌΠ°ΡΡΠΈΠ²Π΅ Π°. Π Π·Π°Π΄Π°Π½ΠΈΠΈ 4 ΠΌΡ Π΄Π΅Π»ΠΈΠ»ΠΈ ΡΡΠΌΠΌΡ ΠΏΡΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠΉ ΡΠ΅Π½ΡΡΠΈΡΠΎΠ²Π°Π½Π½ΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π½Π° N-1, Π° Π½Π΅ Π½Π° N, ΠΏΠΎΡΡΠΎΠΌΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½Π°Ρ Π½Π°ΠΌΠΈ Π²Π΅Π»ΠΈΡΠΈΠ½Π° ΡΠ²Π»ΡΠ΅ΡΡΡ Π½Π΅ΡΠΌΠ΅ΡΠ΅Π½Π½ΠΎΠΉ ΠΎΡΠ΅Π½ΠΊΠΎΠΉ ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΠΈ. Π ΡΡΠΎΠΌ Π·Π°Π΄Π°Π½ΠΈΠΈ ΠΏΡΠΎΠ²Π΅ΡΡΡΠ΅ ΠΏΠΎΠ»ΡΡΠΈΠ²ΡΠ΅Π΅ΡΡ ΡΠΈΡΠ»ΠΎ, Π²ΡΡΠΈΡΠ»ΠΈΠ² ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΡ Π΅ΡΠ΅ ΠΎΠ΄Π½ΠΈΠΌ ΡΠΏΠΎΡΠΎΠ±ΠΎΠΌ - Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ np.cov. Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ° m ΡΡΠ½ΠΊΡΠΈΡ np.cov Π΄ΠΎΠ»ΠΆΠ½Π° ΠΏΡΠΈΠ½ΠΈΠΌΠ°ΡΡ ΡΡΠ°Π½ΡΠΏΠΎΠ½ΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² a. Π ΠΏΠΎΠ»ΡΡΠΈΠ²ΡΠ΅ΠΉΡΡ ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΠΎΠ½Π½ΠΎΠΉ ΠΌΠ°ΡΡΠΈΡΠ΅ (ΠΌΠ°ΡΡΠΈΠ² Numpy ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ 2x2) ΠΈΡΠΊΠΎΠΌΠΎΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΠΈ Π±ΡΠ΄Π΅Ρ ΡΠ°Π²Π½ΠΎ ΡΠ»Π΅ΠΌΠ΅Π½ΡΡ Π² ΡΡΡΠΎΠΊΠ΅ Ρ ΠΈΠ½Π΄Π΅ΠΊΡΠΎΠΌ 0 ΠΈ ΡΡΠΎΠ»Π±ΡΠ΅ Ρ ΠΈΠ½Π΄Π΅ΠΊΡΠΎΠΌ 1.
ΠΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΡΠ·Π½Π°ΡΡ ΠΎ ΠΊΠΎΠ²Π°ΡΠΈΠ°ΡΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ Π·Π΄Π΅ΡΡ: Π‘ΡΡΠ»ΠΊΠ°
A. ΠΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ Pandas ΠΈ Π΄Π°ΠΉΡΠ΅ Π΅ΠΉ ΠΏΡΠ΅Π²Π΄ΠΎΠ½ΠΈΠΌ pd.
B. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ authors ΡΠΎ ΡΡΠΎΠ»Π±ΡΠ°ΠΌΠΈ author_id ΠΈ author_name, Π² ΠΊΠΎΡΠΎΡΡΡ
ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ Π΄Π°Π½Π½ΡΠ΅:
[1, 2, 3] ΠΈ ['Π’ΡΡΠ³Π΅Π½Π΅Π²', 'Π§Π΅Ρ
ΠΎΠ²', 'ΠΡΡΡΠΎΠ²ΡΠΊΠΈΠΉ'].
C. ΠΠ°ΡΠ΅ΠΌ ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ book cΠΎ ΡΡΠΎΠ»Π±ΡΠ°ΠΌΠΈ author_id, book_title ΠΈ price,Π² ΠΊΠΎΡΠΎΡΡΡ
ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ Π΄Π°Π½Π½ΡΠ΅:
[1, 1, 1, 2, 2, 3, 3],
['ΠΡΡΡ ΠΈ Π΄Π΅ΡΠΈ', 'Π ΡΠ΄ΠΈΠ½', 'ΠΠ²ΠΎΡΡΠ½ΡΠΊΠΎΠ΅ Π³Π½Π΅Π·Π΄ΠΎ', 'Π’ΠΎΠ»ΡΡΡΠΉ ΠΈ ΡΠΎΠ½ΠΊΠΈΠΉ', 'ΠΠ°ΠΌΠ° Ρ ΡΠΎΠ±Π°ΡΠΊΠΎΠΉ', 'ΠΡΠΎΠ·Π°', 'Π’Π°Π»Π°Π½ΡΡ ΠΈ ΠΏΠΎΠΊΠ»ΠΎΠ½Π½ΠΈΠΊΠΈ'],
[450, 300, 350, 500, 450, 370, 290].
ΠΠΎΠ»ΡΡΠΈΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ authors_price, ΡΠΎΠ΅Π΄ΠΈΠ½ΠΈΠ² Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ authors ΠΈ books ΠΏΠΎ ΠΏΠΎΠ»Ρ author_id.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ top5, Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ ΡΡΡΠΎΠΊΠΈ ΠΈΠ· authors_price Ρ ΠΏΡΡΡΡ ΡΠ°ΠΌΡΠΌΠΈ Π΄ΠΎΡΠΎΠ³ΠΈΠΌΠΈ ΠΊΠ½ΠΈΠ³Π°ΠΌΠΈ.
A. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ authors_stat Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΈΠ· authors_price.
B. Π Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ΅ authors_stat Π΄ΠΎΠ»ΠΆΠ½Ρ Π±ΡΡΡ ΡΠ΅ΡΡΡΠ΅ ΡΡΠΎΠ»Π±ΡΠ°:
author_name, min_price, max_price ΠΈ mean_price, Π² ΠΊΠΎΡΠΎΡΡΡ
Π΄ΠΎΠ»ΠΆΠ½Ρ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ ΠΈΠΌΡ Π°Π²ΡΠΎΡΠ°, ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½Π°Ρ, ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½Π°Ρ ΠΈ ΡΡΠ΅Π΄Π½ΡΡ ΡΠ΅Π½Π° Π½Π° ΠΊΠ½ΠΈΠ³ΠΈ ΡΡΠΎΠ³ΠΎ Π°Π²ΡΠΎΡΠ°.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π½ΠΎΠ²ΡΠΉ ΡΡΠΎΠ»Π±Π΅Ρ Π² Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ΅ authors_price ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ cover, Π² Π½Π΅ΠΌ Π±ΡΠ΄ΡΡ ΡΠ°ΡΠΏΠΎΠ»Π°Π³Π°ΡΡΡΡ Π΄Π°Π½Π½ΡΠ΅ ΠΎ ΡΠΎΠΌ, ΠΊΠ°ΠΊΠ°Ρ ΠΎΠ±Π»ΠΎΠΆΠΊΠ° Ρ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ½ΠΈΠ³ΠΈ - ΡΠ²Π΅ΡΠ΄Π°Ρ ΠΈΠ»ΠΈ ΠΌΡΠ³ΠΊΠ°Ρ. Π ΡΡΠΎΡ ΡΡΠΎΠ»Π±Π΅Ρ ΠΏΠΎΠΌΠ΅ΡΡΠΈΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ ΠΈΠ· ΡΠ»Π΅Π΄ΡΡΡΠ΅Π³ΠΎ ΡΠΏΠΈΡΠΊΠ°: ['ΡΠ²Π΅ΡΠ΄Π°Ρ', 'ΠΌΡΠ³ΠΊΠ°Ρ', 'ΠΌΡΠ³ΠΊΠ°Ρ', 'ΡΠ²Π΅ΡΠ΄Π°Ρ', 'ΡΠ²Π΅ΡΠ΄Π°Ρ', 'ΠΌΡΠ³ΠΊΠ°Ρ', 'ΠΌΡΠ³ΠΊΠ°Ρ']. ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΡΠΈΡ ΠΏΠΎ ΡΡΠ½ΠΊΡΠΈΠΈ pd.pivot_table Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π²ΠΎΠΏΡΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ Π·Π½Π°ΠΊΠ°. ΠΠ»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π°Π²ΡΠΎΡΠ° ΠΏΠΎΡΡΠΈΡΠ°ΠΉΡΠ΅ ΡΡΠΌΠΌΠ°ΡΠ½ΡΡ ΡΡΠΎΠΈΠΌΠΎΡΡΡ ΠΊΠ½ΠΈΠ³ Π² ΡΠ²Π΅ΡΠ΄ΠΎΠΉ ΠΈ ΠΌΡΠ³ΠΊΠΎΠΉ ΠΎΠ±Π»ΠΎΠΆΠΊΠ΅.ΠΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ Π΄Π»Ρ ΡΡΠΎΠ³ΠΎ ΡΡΠ½ΠΊΡΠΈΡ pd.pivot_table. ΠΡΠΈ ΡΡΠΎΠΌ ΡΡΠΎΠ»Π±ΡΡ Π΄ΠΎΠ»ΠΆΠ½Ρ Π½Π°Π·ΡΠ²Π°ΡΡΡΡ "ΡΠ²Π΅ΡΠ΄Π°Ρ" ΠΈ "ΠΌΡΠ³ΠΊΠ°Ρ",Π° ΠΈΠ½Π΄Π΅ΠΊΡΠ°ΠΌΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ Π±ΡΡΡ ΡΠ°ΠΌΠΈΠ»ΠΈΠΈ Π°Π²ΡΠΎΡΠΎΠ². ΠΡΠΎΠΏΡΡΠ΅Π½Π½ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΡΠΎΠΈΠΌΠΎΡΡΠ΅ΠΉ Π·Π°ΠΏΠΎΠ»Π½ΠΈΡΠ΅ Π½ΡΠ»ΡΠΌΠΈ,ΠΏΡΠΈ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ Π·Π°Π³ΡΡΠ·ΠΈΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ Numpy. ΠΠ°Π·ΠΎΠ²ΠΈΡΠ΅ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ book_info ΠΈ ΡΠΎΡ ΡΠ°Π½ΠΈΡΠ΅ Π΅Π³ΠΎ Π² ΡΠΎΡΠΌΠ°Ρ pickle ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ "book_info.pkl".ΠΠ°ΡΠ΅ΠΌ Π·Π°Π³ΡΡΠ·ΠΈΡΠ΅ ΠΈΠ· ΡΡΠΎΠ³ΠΎ ΡΠ°ΠΉΠ»Π° Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ ΠΈ Π½Π°Π·ΠΎΠ²ΠΈΡΠ΅ Π΅Π³ΠΎ book_info2.Π£Π΄ΠΎΡΡΠΎΠ²Π΅ΡΡΡΠ΅ΡΡ, ΡΡΠΎ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ book_info ΠΈ book_info2 ΠΈΠ΄Π΅Π½ΡΠΈΡΠ½Ρ
ΠΠ°Π³ΡΡΠ·ΠΈΡΠ΅ ΠΌΠΎΠ΄ΡΠ»Ρ pyplot Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ matplotlib Ρ ΠΏΡΠ΅Π²Π΄ΠΎΠ½ΠΈΠΌΠΎΠΌ plt, Π° ΡΠ°ΠΊΠΆΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ numpy Ρ ΠΏΡΠ΅Π²Π΄ΠΎΠ½ΠΈΠΌΠΎΠΌ np.
ΠΡΠΈΠΌΠ΅Π½ΠΈΡΠ΅ ΠΌΠ°Π³ΠΈΡΠ΅ΡΠΊΡΡ ΡΡΠ½ΠΊΡΠΈΡ %matplotlib inline Π΄Π»Ρ ΠΎΡΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Π³ΡΠ°ΡΠΈΠΊΠΎΠ² Π² Jupyter Notebook ΠΈ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ ΠΊΠΎΠ½ΡΠΈΠ³ΡΡΠ°ΡΠΈΠΈ Π½ΠΎΡΡΠ±ΡΠΊΠ° ΡΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ΠΌ 'svg' Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ ΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΎΡΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Π³ΡΠ°ΡΠΈΠΊΠΎΠ².
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΡΠΏΠΈΡΠΎΠΊ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ x Ρ ΡΠΈΡΠ»Π°ΠΌΠΈ 1, 2, 3, 4, 5, 6, 7 ΠΈ ΡΠΏΠΈΡΠΎΠΊ y Ρ ΡΠΈΡΠ»Π°ΠΌΠΈ 3.5, 3.8, 4.2, 4.5, 5, 5.5, 7.
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ plot ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ Π³ΡΠ°ΡΠΈΠΊ, ΡΠΎΠ΅Π΄ΠΈΠ½ΡΡΡΠΈΠΉ Π»ΠΈΠ½ΠΈΡΠΌΠΈ ΡΠΎΡΠΊΠΈ Ρ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΡΠ½ΡΠΌΠΈ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΠ°ΠΌΠΈ ΠΈΠ· ΡΠΏΠΈΡΠΊΠ° x ΠΈ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΡΠΌΠΈ - ΠΈΠ· ΡΠΏΠΈΡΠΊΠ° y.
ΠΠ°ΡΠ΅ΠΌ Π² ΡΠ»Π΅Π΄ΡΡΡΠ΅ΠΉ ΡΡΠ΅ΠΉΠΊΠ΅ ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ ΡΠ°ΡΡΠ΅ΡΠ½ΠΈΡ (Π΄ΡΡΠ³ΠΈΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΡ - Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΠ° ΡΠ°Π·Π±ΡΠΎΡΠ°, scatter plot).
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ linspace ΠΈΠ· Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ Numpy ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΠ² t ΠΈΠ· 51 ΡΠΈΡΠ»Π° ΠΎΡ 0 Π΄ΠΎ 10 Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΠ² Numpy ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ f, ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΉ ΠΊΠΎΡΠΈΠ½ΡΡΡ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² ΠΌΠ°ΡΡΠΈΠ²Π° t.
ΠΠΎΡΡΡΠΎΠΉΡΠ΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΡΡ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΌΠ°ΡΡΠΈΠ² t Π΄Π»Ρ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ ΠΏΠΎ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΠΈ, Π° ΠΌΠ°ΡΡΠΈΠ² f - Π΄Π»Ρ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ ΠΏΠΎ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΠΈ. ΠΠΈΠ½ΠΈΡ Π³ΡΠ°ΡΠΈΠΊΠ° Π΄ΠΎΠ»ΠΆΠ½Π° Π±ΡΡΡ Π·Π΅Π»Π΅Π½ΠΎΠ³ΠΎ ΡΠ²Π΅ΡΠ°.
ΠΡΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ - 'ΠΡΠ°ΡΠΈΠΊ f(t)'.
Π’Π°ΠΊΠΆΠ΅ Π΄ΠΎΠ±Π°Π²ΡΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΡ Π΄Π»Ρ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΡΠ½ΠΎΠΉ ΠΎΡΠΈ - 'ΠΠ½Π°ΡΠ΅Π½ΠΈΡ t' ΠΈ Π΄Π»Ρ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΠΎΠΉ - 'ΠΠ½Π°ΡΠ΅Π½ΠΈΡ f'.
ΠΠ³ΡΠ°Π½ΠΈΡΡΡΠ΅ Π³ΡΠ°ΡΠΈΠΊ ΠΏΠΎ ΠΎΡΠΈ x Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ 0.5 ΠΈ 9.5, Π° ΠΏΠΎ ΠΎΡΠΈ y - Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ -2.5 ΠΈ 2.5.
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ linspace Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ Numpy ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΠ² x ΠΈΠ· 51 ΡΠΈΡΠ»Π° ΠΎΡ -3 Π΄ΠΎ 3 Π²ΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΠ²Ρ
ΠΡΠΏΠΎΠ»ΡΠ·ΡΡ ΡΡΠ½ΠΊΡΠΈΡ subplots ΠΌΠΎΠ΄ΡΠ»Ρ matplotlib.pyplot, ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡ matplotlib.figure.Figure Ρ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ fig ΠΈ ΠΌΠ°ΡΡΠΈΠ² ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Axes ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ ax, ΠΏΡΠΈΡΠ΅ΠΌ ΡΠ°ΠΊ, ΡΡΠΎΠ±Ρ Ρ Π²Π°Ρ Π±ΡΠ»ΠΎ 4 ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΡ
Π³ΡΠ°ΡΠΈΠΊΠ° Π² ΡΠ΅ΡΠΊΠ΅, ΡΠΎΡΡΠΎΡΡΠ΅ΠΉ ΠΈΠ· Π΄Π²ΡΡ
ΡΡΡΠΎΠΊ ΠΈ Π΄Π²ΡΡ
ΡΡΠΎΠ»Π±ΡΠΎΠ². Π ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π³ΡΠ°ΡΠΈΠΊΠ΅ ΠΌΠ°ΡΡΠΈΠ² x ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Π΄Π»Ρ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ ΠΏΠΎ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΠΈ.
Π Π»Π΅Π²ΠΎΠΌ Π²Π΅ΡΡ
Π½Π΅ΠΌ Π³ΡΠ°ΡΠΈΠΊΠ΅ Π΄Π»Ρ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ ΠΏΠΎ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅
ΠΠ°ΠΉΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ Π³ΡΠ°ΡΠΈΠΊΠ°ΠΌ: 'ΠΡΠ°ΡΠΈΠΊ
ΠΠ»Ρ Π³ΡΠ°ΡΠΈΠΊΠ° Π² Π»Π΅Π²ΠΎΠΌ Π²Π΅ΡΡ
Π½Π΅ΠΌ ΡΠ³Π»Ρ ΡΡΡΠ°Π½ΠΎΠ²ΠΈΡΠ΅ Π³ΡΠ°Π½ΠΈΡΡ ΠΏΠΎ ΠΎΡΠΈ x ΠΎΡ -5 Π΄ΠΎ 5.
Π£ΡΡΠ°Π½ΠΎΠ²ΠΈΡΠ΅ ΡΠ°Π·ΠΌΠ΅ΡΡ ΡΠΈΠ³ΡΡΡ 8 Π΄ΡΠΉΠΌΠΎΠ² ΠΏΠΎ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΠΈ ΠΈ 6 Π΄ΡΠΉΠΌΠΎΠ² ΠΏΠΎ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΠΈ.
ΠΠ΅ΡΡΠΈΠΊΠ°Π»ΡΠ½ΡΠ΅ ΠΈ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΡΠ½ΡΠ΅ Π·Π°Π·ΠΎΡΡ ΠΌΠ΅ΠΆΠ΄Ρ Π³ΡΠ°ΡΠΈΠΊΠ°ΠΌΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ ΡΠΎΡΡΠ°Π²Π»ΡΡΡ 0.3.
Π ΡΡΠΎΠΌ Π·Π°Π΄Π°Π½ΠΈΠΈ ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ Π΄Π°ΡΠ°ΡΠ΅ΡΠΎΠΌ, Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΠΏΡΠΈΠ²Π΅Π΄Π΅Π½Ρ Π΄Π°Π½Π½ΡΠ΅ ΠΏΠΎ ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΡΠ²Ρ Ρ ΠΊΡΠ΅Π΄ΠΈΡΠ½ΡΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ: Credit Card Fraud Detection (ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎΠ± Π°Π²ΡΠΎΡΠ°Ρ : Andrea Dal Pozzolo, Olivier Caelen, Reid A. Johnson and Gianluca Bontempi. Calibrating Probability with Undersampling for Unbalanced Classification. In Symposium on Computational Intelligence and Data Mining (CIDM), IEEE, 2015). ΠΠ°Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠΈΠΌΠ΅ΡΠΎΠΌ Π½Π΅ΡΠ±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°Π½Π½ΡΡ Π΄Π°Π½Π½ΡΡ , ΡΠ°ΠΊ ΠΊΠ°ΠΊ ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΈ Ρ ΠΊΠ°ΡΡΠ°ΠΌΠΈ Π²ΡΡΡΠ΅ΡΠ°ΡΡΡΡ ΡΠ΅ΠΆΠ΅ ΠΎΠ±ΡΡΠ½ΡΡ . ΠΠΌΠΏΠΎΡΡΡΡΠΉΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ Pandas, Π° ΡΠ°ΠΊΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ Π΄Π»Ρ Π³ΡΠ°ΡΠΈΠΊΠΎΠ² ΡΡΠΈΠ»Ρ βfivethirtyeightβ. ΠΠΎΡΡΠΈΡΠ°ΠΉΡΠ΅ Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° value_counts ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΠΉ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΠ΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ Class ΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΡΠ΅ ΠΊ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΌ Π΄Π°Π½Π½ΡΠΌ ΠΌΠ΅ΡΠΎΠ΄ plot, ΡΡΠΎΠ±Ρ ΠΏΠΎΡΡΡΠΎΠΈΡΡ ΡΡΠΎΠ»Π±ΡΠ°ΡΡΡ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ. ΠΠ°ΡΠ΅ΠΌ ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ ΡΠ°ΠΊΡΡ ΠΆΠ΅ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Π»ΠΎΠ³Π°ΡΠΈΡΠΌΠΈΡΠ΅ΡΠΊΠΈΠΉ ΠΌΠ°ΡΡΡΠ°Π±. ΠΠ° ΡΠ»Π΅Π΄ΡΡΡΠ΅ΠΌ Π³ΡΠ°ΡΠΈΠΊΠ΅ ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ Π΄Π²Π΅ Π³ΠΈΡΡΠΎΠ³ΡΠ°ΠΌΠΌΡ ΠΏΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ° V1 - ΠΎΠ΄Π½Ρ Π΄Π»Ρ ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΡΠ°Π½Π·Π°ΠΊΡΠΈΠΉ (Class ΡΠ°Π²Π΅Π½ 1) ΠΈ Π΄ΡΡΠ³ΡΡ - Π΄Π»Ρ ΠΎΠ±ΡΡΠ½ΡΡ (Class ΡΠ°Π²Π΅Π½ 0). ΠΠΎΠ΄Π±Π΅ΡΠΈΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ° density ΡΠ°ΠΊ, ΡΡΠΎΠ±Ρ ΠΏΠΎ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΠΈ Π³ΡΠ°ΡΠΈΠΊΠ° Π±ΡΠ»ΠΎ ΡΠ°ΡΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΎ Π½Π΅ ΡΠΈΡΠ»ΠΎ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΠΉ, Π° ΠΏΠ»ΠΎΡΠ½ΠΎΡΡΡ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ. Π§ΠΈΡΠ»ΠΎ Π±ΠΈΠ½ΠΎΠ² Π΄ΠΎΠ»ΠΆΠ½ΠΎ ΡΠ°Π²Π½ΡΡΡΡΡ 20 Π΄Π»Ρ ΠΎΠ±Π΅ΠΈΡ Π³ΠΈΡΡΠΎΠ³ΡΠ°ΠΌΠΌ, Π° ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ alpha ΡΠ΄Π΅Π»Π°ΠΉΡΠ΅ ΡΠ°Π²Π½ΡΠΌ 0.5, ΡΡΠΎΠ±Ρ Π³ΠΈΡΡΠΎΠ³ΡΠ°ΠΌΠΌΡ Π±ΡΠ»ΠΈ ΠΏΠΎΠ»ΡΠΏΡΠΎΠ·ΡΠ°ΡΠ½ΡΠΌΠΈ ΠΈ Π½Π΅ Π·Π°Π³ΠΎΡΠ°ΠΆΠΈΠ²Π°Π»ΠΈ Π΄ΡΡΠ³ Π΄ΡΡΠ³Π°. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π»Π΅Π³Π΅Π½Π΄Ρ Ρ Π΄Π²ΡΠΌΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ: βClass 0β ΠΈ βClass 1β. ΠΠΈΡΡΠΎΠ³ΡΠ°ΠΌΠΌΠ° ΠΎΠ±ΡΡΠ½ΡΡ ΡΡΠ°Π½Π·Π°ΠΊΡΠΈΠΉ Π΄ΠΎΠ»ΠΆΠ½Π° Π±ΡΡΡ ΡΠ΅ΡΠΎΠ³ΠΎ ΡΠ²Π΅ΡΠ°, Π° ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΠΊΠΈΡ - ΠΊΡΠ°ΡΠ½ΠΎΠ³ΠΎ. ΠΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΡΠ½ΠΎΠΉ ΠΎΡΠΈ Π΄Π°ΠΉΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ βClassβ.
ΠΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ pandas ΠΈ numpy.
ΠΠ°Π³ΡΡΠ·ΠΈΡΠ΅ "Boston House Prices dataset" ΠΈΠ· Π²ΡΡΡΠΎΠ΅Π½Π½ΡΡ
Π½Π°Π±ΠΎΡΠΎΠ² Π΄Π°Π½Π½ΡΡ
Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ sklearn. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ X ΠΈ y ΠΈΠ· ΡΡΠΈΡ
Π΄Π°Π½Π½ΡΡ
.
Π Π°Π·Π±Π΅ΠΉΡΠ΅ ΡΡΠΈ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΠ΅ (X_train, y_train) ΠΈ ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ (X_test, y_test) Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ train_test_split ΡΠ°ΠΊ, ΡΡΠΎΠ±Ρ ΡΠ°Π·ΠΌΠ΅Ρ ΡΠ΅ΡΡΠΎΠ²ΠΎΠΉ Π²ΡΠ±ΠΎΡΠΊΠΈ ΡΠΎΡΡΠ°Π²Π»ΡΠ» 30% ΠΎΡ Π²ΡΠ΅Ρ
Π΄Π°Π½Π½ΡΡ
, ΠΏΡΠΈ ΡΡΠΎΠΌ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ random_state Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±ΡΡΡ ΡΠ°Π²Π΅Π½ 42.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ lr Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΊΠ»Π°ΡΡΠ° LinearRegression ΠΈΠ· ΠΌΠΎΠ΄ΡΠ»Ρ sklearn.linear_model.
ΠΠ±ΡΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΡ
Π΄Π°Π½Π½ΡΡ
(ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ Π²ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ) ΠΈ ΡΠ΄Π΅Π»Π°ΠΉΡΠ΅ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ
.
ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ R2 ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΡ
ΠΏΡΠ΅Π΄ΠΊΠ°Π·Π°Π½ΠΈΠΉ Ρ ΠΏΠΎΠΌΠΎΡΡΡ r2_score ΠΈΠ· ΠΌΠΎΠ΄ΡΠ»Ρ sklearn.metrics.
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ model Ρ ΠΏΠΎΠΌΠΎΡΡΡ RandomForestRegressor ΠΈΠ· ΠΌΠΎΠ΄ΡΠ»Ρ sklearn.ensemble.
Π‘Π΄Π΅Π»Π°ΠΉΡΠ΅ Π°Π³ΡΡΠΌΠ΅Π½Ρ n_estimators ΡΠ°Π²Π½ΡΠΌ 1000, max_depth Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±ΡΡΡ ΡΠ°Π²Π΅Π½ 12 ΠΈ random_state ΡΠ΄Π΅Π»Π°ΠΉΡΠ΅ ΡΠ°Π²Π½ΡΠΌ 42.
ΠΠ±ΡΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΡ
Π΄Π°Π½Π½ΡΡ
Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΠΎ ΡΠΎΠΌΡ, ΠΊΠ°ΠΊ Π²Ρ ΠΎΠ±ΡΡΠ°Π»ΠΈ ΠΌΠΎΠ΄Π΅Π»Ρ LinearRegression, Π½ΠΎ ΠΏΡΠΈ ΡΡΠΎΠΌ Π² ΠΌΠ΅ΡΠΎΠ΄ fit Π²ΠΌΠ΅ΡΡΠΎ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° y_train ΠΏΠΎΡΡΠ°Π²ΡΡΠ΅ y_train.values[:, 0], ΡΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° ΠΎΠ΄Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² Numpy, ΡΠ°ΠΊ ΠΊΠ°ΠΊ Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠ° RandomForestRegressor Π² Π΄Π°Π½Π½ΠΎΠΌ ΠΌΠ΅ΡΠΎΠ΄Π΅ Π΄Π»Ρ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ° y ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ°ΡΡΠΈΠ²ΠΎΠ² Π²ΠΌΠ΅ΡΡΠΎ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ°.
Π‘Π΄Π΅Π»Π°ΠΉΡΠ΅ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ
Π΄Π°Π½Π½ΡΡ
ΠΈ ΠΏΠΎΡΡΠΈΡΠ°ΠΉΡΠ΅ R2. Π‘ΡΠ°Π²Π½ΠΈΡΠ΅ Ρ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠΌ ΠΈΠ· ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅Π³ΠΎ Π·Π°Π΄Π°Π½ΠΈΡ.
ΠΠ°ΠΏΠΈΡΠΈΡΠ΅ Π² ΠΊΠΎΠΌΠΌΠ΅Π½ΡΠ°ΡΠΈΡΡ
ΠΊ ΠΊΠΎΠ΄Ρ, ΠΊΠ°ΠΊΠ°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π² Π΄Π°Π½Π½ΠΎΠΌ ΡΠ»ΡΡΠ°Π΅ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π»ΡΡΡΠ΅.
ΠΡΠ·ΠΎΠ²ΠΈΡΠ΅ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΡΠΈΡ Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠ° RandomForestRegressor,
Π½Π°ΠΉΠ΄ΠΈΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎΠ± Π°ΡΡΠΈΠ±ΡΡΠ΅ feature_importances_.
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠΎΠ³ΠΎ Π°ΡΡΠΈΠ±ΡΡΠ° Π½Π°ΠΉΠ΄ΠΈΡΠ΅ ΡΡΠΌΠΌΡ Π²ΡΠ΅Ρ
ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Π΅ΠΉ Π²Π°ΠΆΠ½ΠΎΡΡΠΈ, ΡΡΡΠ°Π½ΠΎΠ²ΠΈΡΠ΅, ΠΊΠ°ΠΊΠΈΠ΅ Π΄Π²Π° ΠΏΡΠΈΠ·Π½Π°ΠΊΠ° ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°ΡΡ Π½Π°ΠΈΠ±ΠΎΠ»ΡΡΡΡ Π²Π°ΠΆΠ½ΠΎΡΡΡ.
Π ΡΡΠΎΠΌ Π·Π°Π΄Π°Π½ΠΈΠΈ ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ Π΄Π°ΡΠ°ΡΠ΅ΡΠΎΠΌ, Ρ ΠΊΠΎΡΠΎΡΡΠΌ ΠΌΡ ΡΠΆΠ΅ Π·Π½Π°ΠΊΠΎΠΌΡ ΠΏΠΎ Π΄ΠΎΠΌΠ°ΡΠ½Π΅ΠΌΡ Π·Π°Π΄Π°Π½ΠΈΡ ΠΏΠΎ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ Matplotlib, ΡΡΠΎ Π΄Π°ΡΠ°ΡΠ΅Ρ Credit Card Fraud Detection.
ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ Π΄Π°ΡΠ°ΡΠ΅ΡΠ° ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΡΠ΅ΡΠ°ΡΡ Π·Π°Π΄Π°ΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ - Π±ΡΠ΄Π΅ΠΌ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΡΡ, ΠΊΠ°ΠΊΠΈΠ΅ ΠΈΠ· ΡΡΠ°Π½Π·Π°ΠΊΡΠΈΡΠΈΠΈ ΠΏΠΎ ΠΊΡΠ΅Π΄ΠΈΡΠ½ΠΎΠΉ ΠΊΠ°ΡΡΠ΅ ΡΠ²Π»ΡΡΡΡΡ ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ.
ΠΠ°Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΡΠΈΠ»ΡΠ½ΠΎ Π½Π΅ΡΠ±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°Π½ (ΡΠ°ΠΊ ΠΊΠ°ΠΊ ΡΠ»ΡΡΠ°ΠΈ ΠΌΠΎΡΠ΅Π½Π½ΠΈΡΠ΅ΡΡΠ²Π° ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ΅Π΄ΠΊΠΈ), ΡΠ°ΠΊ ΡΡΠΎ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅ΡΡΠΈΠΊΠΈ accuracy Π½Π΅ ΠΏΡΠΈΠ½Π΅ΡΠ΅Ρ ΠΏΠΎΠ»ΡΠ·Ρ ΠΈ Π½Π΅ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ Π²ΡΠ±ΡΠ°ΡΡ Π»ΡΡΡΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ.
ΠΡ Π±ΡΠ΄Π΅ΠΌ Π²ΡΡΠΈΡΠ»ΡΡΡ AUC, ΡΠΎ Π΅ΡΡΡ ΠΏΠ»ΠΎΡΠ°Π΄Ρ ΠΏΠΎΠ΄ ΠΊΡΠΈΠ²ΠΎΠΉ ROC.
ΠΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ ΠΈΠ· ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΡ
ΠΌΠΎΠ΄ΡΠ»Π΅ΠΉ RandomForestClassifier, GridSearchCV ΠΈ train_test_split.
ΠΠ°Π³ΡΡΠ·ΠΈΡΠ΅ Π΄Π°ΡΠ°ΡΠ΅Ρ creditcard.csv ΠΈ ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ df.
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° value_counts Ρ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠΎΠΌ normalize=True ΡΠ±Π΅Π΄ΠΈΡΠ΅ΡΡ Π² ΡΠΎΠΌ, ΡΡΠΎ Π²ΡΠ±ΠΎΡΠΊΠ° Π½Π΅ΡΠ±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°Π½Π°.
ΠΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΌΠ΅ΡΠΎΠ΄ info, ΠΏΡΠΎΠ²Π΅ΡΡΡΠ΅, Π²ΡΠ΅ Π»ΠΈ ΡΡΠΎΠ»Π±ΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°Ρ ΡΠΈΡΠ»ΠΎΠ²ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ ΠΈ Π½Π΅Ρ Π»ΠΈ Π² Π½ΠΈΡ
ΠΏΡΠΎΠΏΡΡΠΊΠΎΠ².
ΠΡΠΈΠΌΠ΅Π½ΠΈΡΠ΅ ΡΠ»Π΅Π΄ΡΡΡΡΡ Π½Π°ΡΡΡΠΎΠΉΠΊΡ, ΡΡΠΎΠ±Ρ ΠΌΠΎΠΆΠ½ΠΎ Π±ΡΠ»ΠΎ ΠΏΡΠΎΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡ Π²ΡΠ΅ ΡΡΠΎΠ»Π±ΡΡ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ°:
- pd.options.display.max_columns = 100.
- ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ ΠΏΠ΅ΡΠ²ΡΠ΅ 10 ΡΡΡΠΎΠΊ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° df.
- Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ X ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° df, ΠΈΡΠΊΠ»ΡΡΠΈΠ² ΡΡΠΎΠ»Π±Π΅Ρ Class.
- Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡ Series ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ y ΠΈΠ· ΡΡΠΎΠ»Π±ΡΠ° Class.
- Π Π°Π·Π±Π΅ΠΉΡΠ΅ X ΠΈ y Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΠΉ ΠΈ ΡΠ΅ΡΡΠΎΠ²ΡΠΉ Π½Π°Π±ΠΎΡΡ Π΄Π°Π½Π½ΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΡΡΠ½ΠΊΡΠΈΠΈ train_test_split, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΡ: test_size=0.3, random_state=100, stratify=y.
- Π£ Π²Π°Ρ Π΄ΠΎΠ»ΠΆΠ½Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΡ X_train, X_test, y_train ΠΈ y_test.
- ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ ΠΈΡ ΡΠΎΡΠΌΠ΅.
ΠΠ»Ρ ΠΏΠΎΠΈΡΠΊΠ° ΠΏΠΎ ΡΠ΅ΡΠΊΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π·Π°Π΄Π°ΠΉΡΠ΅ ΡΠ°ΠΊΠΈΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ:
Β Β parameters = [{'n_estimators': [10, 15],
Β Β 'max_features': np.arange(3, 5),
Β Β 'max_depth': np.arange(4, 7)}]
Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ GridSearchCV ΡΠΎ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌΠΈ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠ°ΠΌΠΈ:
Β Β estimator=RandomForestClassifier(random_state=100),
Β Β param_grid=parameters,
Β Β scoring='roc_auc',
Β Β cv=3.
ΠΠ±ΡΡΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΠΎΠΌ Π½Π°Π±ΠΎΡΠ΅ Π΄Π°Π½Π½ΡΡ
(ΠΌΠΎΠΆΠ΅Ρ Π·Π°Π½ΡΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΌΠΈΠ½ΡΡ).
ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ Π»ΡΡΡΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π°ΡΡΠΈΠ±ΡΡΠ° best_params_.
ΠΡΠ΅Π΄ΡΠΊΠ°ΠΆΠΈΡΠ΅ Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΠΈ ΠΊΠ»Π°ΡΡΠΎΠ² Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΌΠ΅ΡΠΎΠ΄Π° predict_proba.
ΠΠ· ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΠΎΠ³ΠΎ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ° (ΠΌΠ°ΡΡΠΈΠ² Numpy) Π²ΡΠ±Π΅ΡΠΈΡΠ΅ ΡΡΠΎΠ»Π±Π΅Ρ Ρ ΠΈΠ½Π΄Π΅ΠΊΡΠΎΠΌ 1 (Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ ΠΊΠ»Π°ΡΡΠ° 1) ΠΈ Π·Π°ΠΏΠΈΡΠΈΡΠ΅ Π² ΠΌΠ°ΡΡΠΈΠ² y_pred_proba.
ΠΠ· ΠΌΠΎΠ΄ΡΠ»Ρ sklearn.metrics ΠΈΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ ΠΌΠ΅ΡΡΠΈΠΊΡ roc_auc_score.
ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ AUC Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ
Π΄Π°Π½Π½ΡΡ
ΠΈ ΡΡΠ°Π²Π½ΠΈΡΠ΅ Ρ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠΌ,ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΌ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΡ
Π΄Π°Π½Π½ΡΡ
, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ Π°ΡΠ³ΡΠΌΠ΅Π½ΡΠΎΠ² ΠΌΠ°ΡΡΠΈΠ²Ρ y_test ΠΈ y_pred_proba.
- ΠΠ°Π³ΡΡΠ·ΠΈΡΠ΅ Π΄Π°ΡΠ°ΡΠ΅Ρ Wine ΠΈΠ· Π²ΡΡΡΠΎΠ΅Π½Π½ΡΡ Π΄Π°ΡΠ°ΡΠ΅ΡΠΎΠ² sklearn.datasets Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ load_wine Π² ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ data.
- ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ Π½Π΅ ΡΠ²Π»ΡΠ΅ΡΡΡ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠΎΠΌ. ΠΡΠΎ ΡΡΡΡΠΊΡΡΡΠ° Π΄Π°Π½Π½ΡΡ , ΠΈΠΌΠ΅ΡΡΠ°Ρ ΠΊΠ»ΡΡΠΈ Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΠΎ ΡΠ»ΠΎΠ²Π°ΡΡ. ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ ΡΠΈΠΏ Π΄Π°Π½Π½ΡΡ ΡΡΠΎΠΉ ΡΡΡΡΠΊΡΡΡΡ Π΄Π°Π½Π½ΡΡ ΠΈ ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΡΠΏΠΈΡΠΎΠΊ data_keys, ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΉ Π΅Π΅ ΠΊΠ»ΡΡΠΈ.
- ΠΡΠΎΡΠΌΠΎΡΡΠΈΡΠ΅ Π΄Π°Π½Π½ΡΠ΅, ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΈ Π½Π°Π·Π²Π°Π½ΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅. ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅ Π½ΡΠΆΠ½ΠΎ Π²ΡΠ²Π΅ΡΡΠΈ Π² Π²ΠΈΠ΄Π΅ ΠΏΡΠΈΠ²ΡΡΠ½ΠΎΠ³ΠΎ, Π°ΠΊΠΊΡΡΠ°ΡΠ½ΠΎ ΠΎΡΠΎΡΠΌΠ»Π΅Π½Π½ΠΎΠ³ΠΎ ΡΠ΅ΠΊΡΡΠ°, Π±Π΅Π· ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΏΠ΅ΡΠ΅Π½ΠΎΡΠ° ΡΡΡΠΎΠΊΠΈ, Π½ΠΎ Ρ ΡΠ°ΠΌΠΈΠΌΠΈ ΠΏΠ΅ΡΠ΅Π½ΠΎΡΠ°ΠΌΠΈ ΠΈ Ρ.Π΄.
- Π‘ΠΊΠΎΠ»ΡΠΊΠΎ ΠΊΠ»Π°ΡΡΠΎΠ² ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ ΡΠ΅Π»Π΅Π²Π°Ρ ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½Π°Ρ Π΄Π°ΡΠ°ΡΠ΅ΡΠ°? ΠΡΠ²Π΅Π΄ΠΈΡΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΡ ΠΊΠ»Π°ΡΡΠΎΠ².
- ΠΠ° ΠΎΡΠ½ΠΎΠ²Π΅ Π΄Π°Π½Π½ΡΡ Π΄Π°ΡΠ°ΡΠ΅ΡΠ° (ΠΎΠ½ΠΈ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ Π² Π΄Π²ΡΠΌΠ΅ΡΠ½ΠΎΠΌ ΠΌΠ°ΡΡΠΈΠ²Π΅ Numpy) ΠΈ Π½Π°Π·Π²Π°Π½ΠΈΠΉ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΡΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ X.
- ΠΡΡΡΠ½ΠΈΡΠ΅ ΡΠ°Π·ΠΌΠ΅Ρ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° X ΠΈ ΡΡΡΠ°Π½ΠΎΠ²ΠΈΡΠ΅, ΠΈΠΌΠ΅ΡΡΡΡ Π»ΠΈ Π² Π½Π΅ΠΌ ΠΏΡΠΎΠΏΡΡΠ΅Π½Π½ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ.
- ΠΠΎΠ±Π°Π²ΡΡΠ΅ Π² Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ ΠΏΠΎΠ»Π΅ Ρ ΠΊΠ»Π°ΡΡΠ°ΠΌΠΈ Π²ΠΈΠ½ Π² Π²ΠΈΠ΄Π΅ ΡΠΈΡΠ΅Π», ΠΈΠΌΠ΅ΡΡΠΈΡ ΡΠΈΠΏ Π΄Π°Π½Π½ΡΡ numpy.int64. ΠΠ°Π·Π²Π°Π½ΠΈΠ΅ ΠΏΠΎΠ»Ρ - 'target'.
- ΠΠΎΡΡΡΠΎΠΉΡΠ΅ ΠΌΠ°ΡΡΠΈΡΡ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠΉ Π΄Π»Ρ Π²ΡΠ΅Ρ ΠΏΠΎΠ»Π΅ΠΉ X. ΠΠ°ΠΉΡΠ΅ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΠΎΠΌΡ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ X_corr.
- Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ ΡΠΏΠΈΡΠΎΠΊ high_corr ΠΈΠ· ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΡ ΠΊΠΎΡΠΎΡΡΡ Ρ ΠΏΠΎΠ»Π΅ΠΌ target ΠΏΠΎ Π°Π±ΡΠΎΠ»ΡΡΠ½ΠΎΠΌΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΏΡΠ΅Π²ΡΡΠ°Π΅Ρ 0.5 (ΠΏΡΠΈΡΠ΅ΠΌ, ΡΠ°ΠΌΠΎ ΠΏΠΎΠ»Π΅ target Π½Π΅ Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π²Ρ ΠΎΠ΄ΠΈΡΡ Π² ΡΡΠΎΡ ΡΠΏΠΈΡΠΎΠΊ).
- Π£Π΄Π°Π»ΠΈΡΠ΅ ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° X ΠΏΠΎΠ»Π΅ Ρ ΡΠ΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ. ΠΠ»Ρ Π²ΡΠ΅Ρ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², Π½Π°Π·Π²Π°Π½ΠΈΡ ΠΊΠΎΡΠΎΡΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ Π² ΡΠΏΠΈΡΠΊΠ΅ high_corr, Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅ ΠΊΠ²Π°Π΄ΡΠ°Ρ ΠΈΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΈ Π΄ΠΎΠ±Π°Π²ΡΡΠ΅ Π² Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ X ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠΈΠ΅ ΠΏΠΎΠ»Ρ Ρ ΡΡΡΡΠΈΠΊΡΠΎΠΌ '_2', Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΠΊ ΠΏΠ΅ΡΠ²ΠΎΠ½Π°ΡΠ°Π»ΡΠ½ΠΎΠΌΡ Π½Π°Π·Π²Π°Π½ΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°. ΠΡΠΎΠ³ΠΎΠ²ΡΠΉ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡ Π²ΡΠ΅ ΠΏΠΎΠ»Ρ, ΠΊΠΎΡΠΎΡΡΠ΅, Π±ΡΠ»ΠΈ Π² Π½Π΅ΠΌ ΠΈΠ·Π½Π°ΡΠ°Π»ΡΠ½ΠΎ, Π° ΡΠ°ΠΊΠΆΠ΅ ΠΏΠΎΠ»Ρ Ρ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ ΠΈΠ· ΡΠΏΠΈΡΠΊΠ° high_corr, Π²ΠΎΠ·Π²Π΅Π΄Π΅Π½Π½ΡΠΌΠΈ Π² ΠΊΠ²Π°Π΄ΡΠ°Ρ. ΠΡΠ²Π΅Π΄ΠΈΡΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΏΠΎΠ»Π΅ΠΉ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° X Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° describe.
ΠΠΌΠΏΠΎΡΡΠΈΡΡΠΉΡΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ pandas, numpy ΠΈ matplotlib. ΠΠ°Π³ΡΡΠ·ΠΈΡΠ΅ "Boston House Prices dataset" ΠΈΠ· Π²ΡΡΡΠΎΠ΅Π½Π½ΡΡ Π½Π°Π±ΠΎΡΠΎΠ² Π΄Π°Π½Π½ΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ sklearn. Π‘ΠΎΠ·Π΄Π°ΠΉΡΠ΅ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ X ΠΈ y ΠΈΠ· ΡΡΠΈΡ Π΄Π°Π½Π½ΡΡ . Π Π°Π·Π±Π΅ΠΉΡΠ΅ ΡΡΠΈ Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΡ Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΠ΅ (X_train, y_train) ΠΈ ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ (X_test, y_test) Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΠ½ΠΊΡΠΈΠΈ train_test_split ΡΠ°ΠΊ, ΡΡΠΎΠ±Ρ ΡΠ°Π·ΠΌΠ΅Ρ ΡΠ΅ΡΡΠΎΠ²ΠΎΠΉ Π²ΡΠ±ΠΎΡΠΊΠΈ ΡΠΎΡΡΠ°Π²Π»ΡΠ» 20% ΠΎΡ Π²ΡΠ΅Ρ Π΄Π°Π½Π½ΡΡ , ΠΏΡΠΈ ΡΡΠΎΠΌ Π°ΡΠ³ΡΠΌΠ΅Π½Ρ random_state Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±ΡΡΡ ΡΠ°Π²Π΅Π½ 42. ΠΠ°ΡΡΡΠ°Π±ΠΈΡΡΠΉΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ Ρ ΠΏΠΎΠΌΠΎΡΡΡ StandardScaler. ΠΠΎΡΡΡΠΎΠΉΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ TSNE Π½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΠΉ Π΄Π°Π½Π½ΡΡ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ: n_components=2, learning_rate=250, random_state=42. ΠΠΎΡΡΡΠΎΠΉΡΠ΅ Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ ΡΠ°ΡΡΠ΅ΡΠ½ΠΈΡ Π½Π° ΡΡΠΈΡ Π΄Π°Π½Π½ΡΡ .
Π‘ ΠΏΠΎΠΌΠΎΡΡΡ KMeans ΡΠ°Π·Π±Π΅ΠΉΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ ΠΈΠ· ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡΠ° Π½Π° 3 ΠΊΠ»Π°ΡΡΠ΅ΡΠ°, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ Π²ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ° X_train. ΠΠ°ΡΠ°ΠΌΠ΅ΡΡ max_iter Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±ΡΡΡ ΡΠ°Π²Π΅Π½ 100, random_state ΡΠ΄Π΅Π»Π°ΠΉΡΠ΅ ΡΠ°Π²Π½ΡΠΌ 42. ΠΠΎΡΡΡΠΎΠΉΡΠ΅ Π΅ΡΠ΅ ΡΠ°Π· Π΄ΠΈΠ°Π³ΡΠ°ΠΌΠΌΡ ΡΠ°ΡΡΠ΅ΡΠ½ΠΈΡ Π½Π° Π΄Π°Π½Π½ΡΡ , ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΡ Ρ ΠΏΠΎΠΌΠΎΡΡΡ TSNE, ΠΈ ΡΠ°ΡΠΊΡΠ°ΡΡΡΠ΅ ΡΠΎΡΠΊΠΈ ΠΈΠ· ΡΠ°Π·Π½ΡΡ ΠΊΠ»Π°ΡΡΠ΅ΡΠΎΠ² ΡΠ°Π·Π½ΡΠΌΠΈ ΡΠ²Π΅ΡΠ°ΠΌΠΈ. ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ ΡΡΠ΅Π΄Π½ΠΈΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ price ΠΈ CRIM Π² ΡΠ°Π·Π½ΡΡ ΠΊΠ»Π°ΡΡΠ΅ΡΠ°Ρ .
ΠΡΠΈΠΌΠ΅Π½ΠΈΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ KMeans, ΠΏΠΎΡΡΡΠΎΠ΅Π½Π½ΡΡ Π² ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅ΠΌ Π·Π°Π΄Π°Π½ΠΈΠΈ, ΠΊ Π΄Π°Π½Π½ΡΠΌ ΠΈΠ· ΡΠ΅ΡΡΠΎΠ²ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡΠ°. ΠΡΡΠΈΡΠ»ΠΈΡΠ΅ ΡΡΠ΅Π΄Π½ΠΈΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ price ΠΈ CRIM Π² ΡΠ°Π·Π½ΡΡ ΠΊΠ»Π°ΡΡΠ΅ΡΠ°Ρ Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ Π΄Π°Π½Π½ΡΡ .
ΠΠ°ΡΠ΅ΡΠΈΠ°Π»Ρ ΠΊ ΠΏΡΠΎΠ΅ΠΊΡΡ (ΡΠ°ΠΉΠ»Ρ): train.csv test.csv
ΠΠ°Π΄Π°Π½ΠΈΠ΅: ΠΡΠΏΠΎΠ»ΡΠ·ΡΡ Π΄Π°Π½Π½ΡΠ΅ ΠΈΠ· train.csv, ΠΏΠΎΡΡΡΠΎΠΈΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ Π΄Π»Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡ ΡΠ΅Π½ Π½Π° Π½Π΅Π΄Π²ΠΈΠΆΠΈΠΌΠΎΡΡΡ (ΠΊΠ²Π°ΡΡΠΈΡΡ). Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°ΡΡ ΡΠ΅Π½Ρ Π΄Π»Ρ ΠΊΠ²Π°ΡΡΠΈΡ ΠΈΠ· ΡΠ°ΠΉΠ»Π° test.csv.
Π¦Π΅Π»Π΅Π²Π°Ρ ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½Π°Ρ: Price
ΠΡΠ½ΠΎΠ²Π½Π°Ρ ΠΌΠ΅ΡΡΠΈΠΊΠ°: R2 - ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ Π΄Π΅ΡΠ΅ΡΠΌΠΈΠ½Π°ΡΠΈΠΈ (sklearn.metrics.r2_score)
ΠΡΠΏΠΎΠΌΠΎΠ³Π°ΡΠ΅Π»ΡΠ½Π°Ρ ΠΌΠ΅ΡΡΠΈΠΊΠ°: MSE - ΡΡΠ΅Π΄Π½ΡΡ ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½Π°Ρ ΠΎΡΠΈΠ±ΠΊΠ° (sklearn.metrics.mean_squared_error)
Π‘Π΄Π°ΡΠ° ΠΏΡΠΎΠ΅ΠΊΡΠ°:
- ΠΡΠΈΡΠ»Π°ΡΡ Π² ΡΠ°Π·Π΄Π΅Π» ΠΠ°Π΄Π°Π½ΠΈΡ Π£ΡΠΎΠΊΠ° 12 ("ΠΠ΅Π±ΠΈΠ½Π°Ρ. ΠΠΎΠ½ΡΡΠ»ΡΡΠ°ΡΠΈΡ ΠΏΠΎ ΠΈΡΠΎΠ³ΠΎΠ²ΠΎΠΌΡ ΠΏΡΠΎΠ΅ΠΊΡΡ") ΡΡΡΠ»ΠΊΡ Π½Π° ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΡ Π² github (ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠ° Π΄ΠΎΠ»ΠΆΠ½Π° ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡΡ Π² ΡΠ°ΠΉΠ»Π΅ Jupyter Notebook Ρ ΡΠ°ΡΡΠΈΡΠ΅Π½ΠΈΠ΅ΠΌ ipynb).
- ΠΡΠΈΠ»ΠΎΠΆΠΈΡΡ ΡΠ°ΠΉΠ» Ρ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ ΠΏΠΎ ΠΎΠ±ΡΠ°Π·ΡΡ SShirkin_predictions.csv Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½Π½ΡΠΌΠΈ ΡΠ΅Π½Π°ΠΌΠΈ Π΄Π»Ρ ΠΊΠ²Π°ΡΡΠΈΡ ΠΈΠ· test.csv (ΡΠ°ΠΉΠ» Π΄ΠΎΠ»ΠΆΠ΅Π½ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡ Π΄Π²Π° ΠΏΠΎΠ»Ρ: Id, Price).
Π‘ΡΠΎΠΊΠΈ ΡΠ΄Π°ΡΠΈ: Π‘Π΄Π°ΡΡ ΠΏΡΠΎΠ΅ΠΊΡ Π·Π° 72 ΡΠ°ΡΠ° Π΄ΠΎ Π½Π°ΡΠ°Π»Π° Π£ΡΠΎΠΊΠ° 13 ("ΠΠ΅Π±ΠΈΠ½Π°Ρ. Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ ΠΈΡΠΎΠ³ΠΎΠ²ΡΡ ΠΏΡΠΎΠ΅ΠΊΡΠΎΠ² ΠΈ Π·Π°ΠΊΡΡΡΠΈΠ΅ ΠΊΡΡΡΠ°").
ΠΡΠΈΠΌΠ΅ΡΠ°Π½ΠΈΠ΅: ΠΡΠ΅ ΡΠ°ΠΉΠ»Ρ csv Π΄ΠΎΠ»ΠΆΠ½Ρ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡ Π½Π°Π·Π²Π°Π½ΠΈΡ ΠΏΠΎΠ»Π΅ΠΉ (header - ΡΠΎ Π΅ΡΡΡ "ΡΠ°ΠΏΠΊΡ"), ΡΠ°Π·Π΄Π΅Π»ΠΈΡΠ΅Π»Ρ - Π·Π°ΠΏΡΡΠ°Ρ. Π ΡΠ°ΠΉΠ»Π°Ρ Π½Π΅ Π΄ΠΎΠ»ΠΆΠ½Ρ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡΡ ΠΈΠ½Π΄Π΅ΠΊΡΡ ΠΈΠ· Π΄Π°ΡΠ°ΡΡΠ΅ΠΉΠΌΠ°.