علم داده (Data Science) با پایتون
" نقشه راه آموزش علم داده با پایتون "
| عنوان | موضوعات |
(زمان تخمینی: 2 ماه) | ساختارهای داده رایج (انواع داده، لیست ها، دیکشنری ها، مجموعه ها، تاپل ها)، توابع، منطق، جریان کنترل، الگوریتم های جستجو و مرتب سازی، برنامه نویسی شی گرا و کار با کتابخانه های خارجی - SQL اسکریپت نویسی: پرس و جو از پایگاه داده با استفاده از پیوندها، تجمیع ها و پرسش های فرعی - استفاده از Git و GitHub |
جمع آوری داده ها-پاکسازی داده (زمان تخمینی: 2 ماه) | Pandas و NumPy دو کتابخانه ای هستند که در اختیار شما هستند تا از داده های کثیف به داده های آماده برای تجزیه و تحلیل برسید. |
تجزیه و تحلیل داده ها (زمان تخمینی: 2 ماه) | تجزیه و تحلیل داده ها: تعریف سوالات، رسیدگی به مقادیر از دست رفته، نقاط پرت، قالب بندی، فیلتر کردن، تجزیه و تحلیل تک متغیره و چند متغیره.تجسم داده ها: ترسیم داده ها با استفاده از کتابخانه هایی مانند matplotlib، seaborn و plotly. نحوه انتخاب نمودار مناسب برای انتقال یافته ها از داده ها را بدانید.داشبوردها: درصد خوبی از تحلیلگران تنها از Excel یا ابزارهای تخصصی مانند Power BI و Tableau برای ساخت داشبوردهایی استفاده می کنند که داده ها را خلاصه/تجمع می کند تا به مدیریت در تصمیم گیری کمک کند.هوش تجاری: گزارش ها |
مهندسی داده (زمان تخمینی: 4 ماه) | مهندسی داده با در دسترس قرار دادن داده های پاک برای محققان و دانشمندان در شرکت های بزرگ داده محور، زیربنای تیم های تحقیق و توسعه است. مسئولیت های یک مهندس داده شامل ایجاد یک معماری داده کارآمد، ساده سازی پردازش داده ها و حفظ سیستم های داده در مقیاس بزرگ است. ETL، استخراج - تبدیل - لود - بهینه سازی عملیات پایگاه داده برای ایجاد کارایی بالا. یکی دیگر از مهارت های حیاتی پیاده سازی این معماری های داده است که نیازمند مهارت در ارائه دهندگان خدمات ابری مانند AWS، Google Cloud ، Microsoft Azure است. |
آمار و ریاضیات کاربردی (زمان تخمینی: 4 ماه) روش های آماری بخش مرکزی علم داده است. تقریباً تمام مصاحبههای علم داده عمدتاً بر آمار توصیفی و استنباطی متمرکز هستند. | افراد اغلب بدون درک روشنی از روشهای آماری و ریاضی الگوریتمهای یادگیری ماشین را شروع میکنند. که این مناسب نیست. آمار توصیفی - میانگین، میانه، حالت، آمار وزنی، آمار کوتاه شده و توزیع برای توصیف داده ها آمار استنباطی - طراحی آزمونهای فرضیه، آزمونهای A/B، تعریف معیارهای تجاری، تجزیه و تحلیل دادههای جمعآوریشده و نتایج آزمایش با استفاده از فاصله اطمینان، مقدار p و مقادیر آلفا. جبر خطی، حساب تک متغیره و چند متغیره- توابع ،گرادیان و بهینه سازها در یادگیری ماشین. |
یادگیری ماشینی و هوش مصنوعی (زمان تخمینی: 4 ماه) پس از اینکه خودتان را پخته کردید و تمام مفاهیم اصلی ذکر شده در بالا را مرور کردید، اکنون باید آماده باشید تا با الگوریتم های ML شروع کنید. | سه نوع عمده یادگیری وجود دارد: یادگیری تحت نظارت - شامل مشکلات رگرسیون و طبقه بندی است. رگرسیون خطی ساده، رگرسیون چندگانه، رگرسیون چند جملهای، بیز ساده، رگرسیون لجستیک، KNN، مدلهای درختی، مدلهای مجموعه را مطالعه کنید. با معیارهای ارزیابی آشنا شوید. یادگیری بدون نظارت - خوشه بندی و کاهش ابعاد دو کاربرد پرکاربرد یادگیری بدون نظارت هستند. در PCA، خوشهبندی K-means، خوشهبندی سلسله مراتبی و مخلوطهای گاوسی عمیق شوید. یادگیری تقویتی (می توان از آن گذشت*) - به شما کمک می کند تا سیستم های خود پاداش بسازید. با استفاده از کتابخانه TF-Agents، ایجاد شبکه های Deep Q و غیره، بهینه سازی پاداش ها را بیاموزید. |
یادگیری عمیق deeplearning (زمان تخمینی: 1 ماه) | هفته اول: مقدمه ای بر یادگیری عمیق هفته دوم: مبانی شبکه های عصبی هفته 3:شبکه های عصبی کم عمق: شبکه عصبی کانولوشن هفته 4: شبکه های عصبی عمیق: مدل دنباله ای |
| بینایی کامپیوتری- NLP |
منابع برای یادگیری آمار و ریاضی:
آمار سطح کالج را بیاموزید: در این دوره آموزشی رایگان 8 ساعته در کانال YouTube freeCodeCamp
[کتاب] آمار عملی برای علم داده (به شدت توصیه می شود) - راهنمای کامل در مورد تمام روش های آماری مهم به همراه برنامه ها / مثال های واضح و مختصر.
[کتاب] آمار برهنه - راهنمای غیر فنی اما دقیق برای درک تأثیر آمار بر رویدادهای معمول، ورزشها، سیستمهای توصیهها و موارد دیگر.
تفکر آماری در پایتون - یک دوره آموزشی پایه برای کمک به شما در شروع تفکر آماری. بخش دوم این دوره نیز وجود دارد.
مقدمه ای بر آمار توصیفی - ارائه شده توسط Udacity. شامل سخنرانی های ویدیویی است که معیارهای پرکاربرد مکان و تنوع (انحراف استاندارد، واریانس، انحراف مطلق میانه) را توضیح می دهد.
آمار استنباطی، Udacity - این دوره شامل سخنرانی های ویدیویی است که به شما آموزش می دهد تا از داده هایی که ممکن است فوراً آشکار نباشند نتیجه گیری کنید. بر توسعه فرضیه ها و استفاده از آزمون های رایج مانند آزمون t، ANOVA و رگرسیون تمرکز دارد.
و در اینجا راهنمای آمار برای علم داده است تا به شما کمک کند مسیر درست را شروع کنید.
منابع یادگیری ماشین:
در اینجا یک دوره کامل رایگان در مورد یادگیری ماشین در پایتون با ScikitLearn در کانال YouTube freeCodeCamp وجود دارد.
[کتاب] آموزش ماشینی دستی با Scikit-Learn، Keras، و TensorFlow، ویرایش دوم - یکی از کتابهای مورد علاقه من در مورد یادگیری ماشین. نه تنها مشتقات ریاضی نظری را پوشش می دهد، بلکه اجرای الگوریتم ها را از طریق مثال ها نشان می دهد. شما باید تمرین های داده شده در پایان هر فصل را حل کنید.
دوره یادگیری ماشین توسط Andrew Ng - دوره آموزشی برای هر کسی که سعی در یادگیری ماشین دارد. دستها پایین!
مقدمه ای بر یادگیری ماشین - دوره تعاملی توسط Kaggle.
مقدمه ای بر هوش مصنوعی بازی و یادگیری تقویتی - دوره تعاملی دیگری در Kaggle در مورد یادگیری تقویتی.
تخصص یادگیری عمیق
برای کسانی از شما که علاقه مند به یادگیری بیشتر در یادگیری عمیق هستید، می توانید با تکمیل این تخصص ارائه شده توسط deeplearning.ai و کتاب Hands-ON شروع کنید. این از دیدگاه علم داده چندان مهم نیست مگر اینکه بخواهید یک مشکل بینایی کامپیوتری یا NLP را حل کنید.
یادگیری عمیق مستحق یک نقشه راه اختصاصی برای خودش است. من به زودی آن را با تمام مفاهیم اساسی ایجاد خواهم کرد.
همچنین نسخه ویدیویی این وبلاگ در اینجا آمده است:
علم داده با هارشیت