B.P3 - Loyiha umumiy ko'rinishi va strategik yo'nalishlar

🛍️ Onlayn chakana savdo ma'lumotlar to'plami umumiy ko'rinishi

📊 Ma'lumotlar to'plami spetsifikatsiyalari

  • Yozuvlar: 500,000+ tranzaksiya
  • Vaqt Oralig'i: 2009 yil dekabr - 2011 yil dekabr
  • Manba: Buyuk Britaniya onlayn chakana savdo kompaniyasi
  • Atributlar: InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country

🎯 Strategik yo'nalishlar

  1. Mijozlarni segmentatsiya: Maqsadli marketing uchun RFM tahlili
  2. Mahsulot tavsiyasi: Shaxsiylashtirilgan mahsulot takliflari
  3. Savdo bashorati: Talab rejalashtirish uchun bashoratli tahlil
  4. Anomaliya aniqlash: Firibgarlik va g'ayrioddiy tranzaksiyalarni aniqlash

B.P4 - ETL jarayoni va ma'lumotlar sifati

Ma'lumotlar sifatini baholash

🔧 Ma'lumotlarni tozalash jarayoni

  • Bo'sh qiymatlar: 135,080 (27%) CustomerID yozuvlari olib tashlandi
  • Salbiy qiymatlar: 25,000+ noto'g'ri tranzaksiyalar chiqarib tashlandi
  • Chetga chiquvchi qiymatlar: IQR usuli bilan 51,361 miqdor anomaliyasi aniqlandi
  • Xususiyat muhandisligi: Vaqtga asoslangan xususiyatlar ajratildi

📈 Ma'lumotlarni bo'lish strategiyasi

  • O'qitish to'plami: 70% (386 kun)
  • Tekshirish to'plami: 15% (77 kun)
  • Test to'plami: 15% (112 kun)
  • Maxfiylik: GDPR ga mos anonim qilish

B.M2 - Xususiyat tahlili va korrelyatsiya

Xususiyat korrelyatsiyasining matritsasi

🔍 Raqamli xususiyatlar tahlili

  • Pul-Chastota: r ≈ 0.7-0.8 (yuqori ijobiy korrelyatsiya)
  • Yaqinlik-maqsad: r ≈ -0.4 (salbiy korrelyatsiya)
  • Asosiy xususiyatlar: TotalPrice, Month, Weekday, CustomerID

📊 Kategorik xususiyatlar tahlili

  • Mamlakat: Buyuk Britaniya mijozlari ma'lumotlar to'plamida ustunlik qiladi
  • Mahsulot kategoriyalari: Chi-kvadrat test qo'llanildi
  • Kodlash: CustomerID uchun Label Encoding, boshqalar uchun OneHot

Mahsulot kategoriyasi taqsimoti (NLP qayta ishlashdan keyin)

B.D2 - Ma'lumotlar sifatini baholash va SWOT tahlili

Umumiy ma'lumotlar sifat ko'rsatkichlari

💪 Kuchli tomonlari

  • Boy va tozalangan ma'lumotlar to'plami (500K+ yozuv)
  • Tuzilgan CSV format
  • Yuqori segmentatsiya aniqligi (Silhouette Score: 0.7314)
  • 287K+ mahsulot-mijoz o'zaro ta'siri

⚠️ Zaif tomonlari

  • Faqat tarixiy ma'lumotlar (real vaqt yangilanishlari yo'q)
  • Cheklangan demografik xususiyatlar
  • Asosan Buyuk Britaniya/Yevropa bozoriga yo'naltirilgan
  • Kategoriya nomutanosibligi muammolari

🚀 Imkoniyatlar

  • Real vaqt ma'lumotlarini integratsiya qilish potentsiali
  • Ilg'or vaqt qatorlari modellashtirish (SARIMA)
  • Kontent asosida + hamkorlikdagi filtrlash
  • Tushuntiriladigan SI (XAI) joriy etish

⚡ Tahdidlar

  • Ma'lumotlar maxfiyligi qoidalari
  • Bozor dinamikasi o'zgarishlari
  • Tarixiy ma'lumotlardagi mavsumiy noto'g'rilik
  • Kengayish qiyinchiliklari

Model ishlashining baholash doirasi