" نقشه راه آموزش علم داده با پایتون "

عنوانموضوعات

آموزش پایتون

(زمان تخمینی: 2 ماه)

ساختارهای داده رایج (انواع داده، لیست ها، دیکشنری ها، مجموعه ها، تاپل ها)، توابع، منطق، جریان کنترل، الگوریتم های جستجو و مرتب سازی، برنامه نویسی شی گرا و کار با کتابخانه های خارجی - SQL اسکریپت نویسی: پرس و جو از پایگاه داده با استفاده از پیوندها، تجمیع ها و پرسش های فرعی - استفاده از Git و GitHub

جمع آوری داده ها-پاکسازی داده

(زمان تخمینی: 2 ماه)

Pandas و NumPy دو کتابخانه ای هستند که در اختیار شما هستند تا از داده های کثیف به داده های آماده برای تجزیه و تحلیل برسید.

تجزیه و تحلیل داده ها

(زمان تخمینی: 2 ماه)

تجزیه و تحلیل داده ها: تعریف سوالات، رسیدگی به مقادیر از دست رفته، نقاط پرت، قالب بندی، فیلتر کردن، تجزیه و تحلیل تک متغیره و چند متغیره.تجسم داده ها: ترسیم داده ها با استفاده از کتابخانه هایی مانند matplotlib، seaborn و plotly. نحوه انتخاب نمودار مناسب برای انتقال یافته ها از داده ها را بدانید.داشبوردها: درصد خوبی از تحلیلگران تنها از Excel یا ابزارهای تخصصی مانند Power BI و Tableau برای ساخت داشبوردهایی استفاده می کنند که داده ها را خلاصه/تجمع می کند تا به مدیریت در تصمیم گیری کمک کند.هوش تجاری: گزارش ها

مهندسی داده

(زمان تخمینی: 4 ماه)

مهندسی داده با در دسترس قرار دادن داده های پاک برای محققان و دانشمندان در شرکت های بزرگ داده محور، زیربنای تیم های تحقیق و توسعه است.

مسئولیت های یک مهندس داده شامل ایجاد یک معماری داده کارآمد، ساده سازی پردازش داده ها و حفظ سیستم های داده در مقیاس بزرگ است. ETL، استخراج - تبدیل - لود - بهینه سازی عملیات پایگاه داده برای ایجاد کارایی بالا.

یکی دیگر از مهارت های حیاتی پیاده سازی این معماری های داده است که نیازمند مهارت در ارائه دهندگان خدمات ابری مانند AWS، Google Cloud ، Microsoft Azure است.

آمار و ریاضیات کاربردی

(زمان تخمینی: 4 ماه)

روش های آماری بخش مرکزی علم داده است. تقریباً تمام مصاحبه‌های علم داده عمدتاً بر آمار توصیفی و استنباطی متمرکز هستند.

افراد اغلب بدون درک روشنی از روش‌های آماری و ریاضی الگوریتم‌های یادگیری ماشین را شروع می‌کنند. که این مناسب نیست.

آمار توصیفی  - میانگین، میانه، حالت، آمار وزنی، آمار کوتاه شده و توزیع برای توصیف داده ها

آمار استنباطی  - طراحی آزمون‌های فرضیه، آزمون‌های A/B، تعریف معیارهای تجاری، تجزیه و تحلیل داده‌های جمع‌آوری‌شده و نتایج آزمایش با استفاده از فاصله اطمینان، مقدار p و مقادیر آلفا.

جبر خطی، حساب تک متغیره و چند متغیره- توابع ،گرادیان و بهینه سازها در یادگیری ماشین.

یادگیری ماشینی و هوش مصنوعی

(زمان تخمینی: 4 ماه)

پس از اینکه خودتان را پخته کردید و تمام مفاهیم اصلی ذکر شده در بالا را مرور کردید، اکنون باید آماده باشید تا با الگوریتم های ML شروع کنید.

سه نوع عمده یادگیری وجود دارد:

یادگیری تحت نظارت  - شامل مشکلات رگرسیون و طبقه بندی است. رگرسیون خطی ساده، رگرسیون چندگانه، رگرسیون چند جمله‌ای، بیز ساده، رگرسیون لجستیک، KNN، مدل‌های درختی، مدل‌های مجموعه را مطالعه کنید. با معیارهای ارزیابی آشنا شوید.

یادگیری بدون نظارت  - خوشه بندی و کاهش ابعاد دو کاربرد پرکاربرد یادگیری بدون نظارت هستند. در PCA، خوشه‌بندی K-means، خوشه‌بندی سلسله مراتبی و مخلوط‌های گاوسی عمیق شوید.

یادگیری تقویتی (می توان از آن گذشت*) - به شما کمک می کند تا سیستم های خود پاداش بسازید. با استفاده از کتابخانه TF-Agents، ایجاد شبکه های Deep Q و غیره، بهینه سازی پاداش ها را بیاموزید.

یادگیری عمیق

deeplearning

(زمان تخمینی: 1 ماه)

هفته اول: مقدمه ای بر یادگیری عمیق
روندهای فناورانه قابل توجهی که باعث توسعه یادگیری عمیق می شود و مکان و نحوه استفاده از آن را درک کنید.

هفته دوم: مبانی شبکه های عصبی
یک مشکل یادگیری ماشینی را با ذهنیت شبکه عصبی تنظیم کنید و از بردار برای سرعت بخشیدن به مدل های خود استفاده کنید.

هفته 3:شبکه های عصبی کم عمق: شبکه عصبی کانولوشن
یک شبکه عصبی با یک لایه پنهان با استفاده از انتشار رو به جلو و پس انتشار بسازید.

هفته 4: شبکه های عصبی عمیق: مدل دنباله ای
محاسبات کلیدی زیربنای یادگیری عمیق را درک کنید، از آنها برای ساختن و آموزش شبکه های عصبی عمیق استفاده کنید و آنها را در بینایی کامپیوتر به کار ببرید.

بینایی کامپیوتری- NLP

منابع برای یادگیری آمار و ریاضی:

آمار سطح کالج را بیاموزید: در این دوره آموزشی رایگان 8 ساعته در کانال YouTube freeCodeCamp

[کتاب] آمار عملی برای علم داده (به شدت توصیه می شود) -  راهنمای کامل در مورد تمام روش های آماری مهم به همراه برنامه ها / مثال های واضح و مختصر.

[کتاب] آمار برهنه  - راهنمای غیر فنی اما دقیق برای درک تأثیر آمار بر رویدادهای معمول، ورزش‌ها، سیستم‌های توصیه‌ها و موارد دیگر.

تفکر آماری در پایتون  - یک دوره آموزشی پایه برای کمک به شما در شروع تفکر آماری. بخش دوم این دوره نیز وجود دارد.

مقدمه ای بر آمار توصیفی - ارائه شده توسط Udacity. شامل سخنرانی های ویدیویی است که معیارهای پرکاربرد مکان و تنوع (انحراف استاندارد، واریانس، انحراف مطلق میانه) را توضیح می دهد.

آمار استنباطی، Udacity  - این دوره شامل سخنرانی های ویدیویی است که به شما آموزش می دهد تا از داده هایی که ممکن است فوراً آشکار نباشند نتیجه گیری کنید. بر توسعه فرضیه ها و استفاده از آزمون های رایج مانند آزمون t، ANOVA و رگرسیون تمرکز دارد.

و در اینجا راهنمای آمار برای علم داده است تا به شما کمک کند مسیر درست را شروع کنید.

منابع یادگیری ماشین:

در اینجا یک دوره کامل رایگان در مورد یادگیری ماشین در پایتون با ScikitLearn در کانال YouTube freeCodeCamp وجود دارد.

[کتاب] آموزش ماشینی دستی با Scikit-Learn، Keras، و TensorFlow، ویرایش دوم  - یکی از کتاب‌های مورد علاقه من در مورد یادگیری ماشین. نه تنها مشتقات ریاضی نظری را پوشش می دهد، بلکه اجرای الگوریتم ها را از طریق مثال ها نشان می دهد. شما باید تمرین های داده شده در پایان هر فصل را حل کنید.

دوره یادگیری ماشین توسط Andrew Ng  - دوره آموزشی برای هر کسی که سعی در یادگیری ماشین دارد. دستها پایین!

مقدمه ای بر یادگیری ماشین  - دوره تعاملی توسط Kaggle.

مقدمه ای بر هوش مصنوعی بازی و یادگیری تقویتی  - دوره تعاملی دیگری در Kaggle در مورد یادگیری تقویتی.

تخصص یادگیری عمیق

برای کسانی از شما که علاقه مند به یادگیری بیشتر در یادگیری عمیق هستید، می توانید با تکمیل این تخصص ارائه شده توسط deeplearning.ai و کتاب Hands-ON شروع کنید. این از دیدگاه علم داده چندان مهم نیست مگر اینکه بخواهید یک مشکل بینایی کامپیوتری یا NLP را حل کنید.

یادگیری عمیق مستحق یک نقشه راه اختصاصی برای خودش است. من به زودی آن را با تمام مفاهیم اساسی ایجاد خواهم کرد.

همچنین نسخه ویدیویی این وبلاگ در اینجا آمده است:

علم داده با هارشیت