Datawhale 自学指南评价

李尚敖等
未知
Sat Feb 17 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

NLP

检查:王崧睿

课程性质课程类型课程名课程评价
基础Python基础聪明办法学Python聪明办法学Python评价
机器学习理论吃瓜教程西瓜书有点过誉了
机器学习实践西瓜书代码实战西瓜书代码实战评价
西瓜书有点过誉了,代码实战可以考虑李航的书或者动手机器学习
深度学习理论水很深的深度学习水很深的深度学习评价
推荐李宏毅的网课
李宏毅机器学习笔记李宏毅机器学习笔记评价
它上面的学习笔记不错
深度学习实践深入浅出PyTorch深入浅出PyTorch评价
深入浅出pytorch比较赞
必修自然语言处理基础基于transformers的自然语言处理入门基于transformers的自然语言处理入门评价
大语言模型(LLM)基础 AIGC基础大语言模型(LLM)原理与实践大语言模型(LLM)原理与实践评价
选修强化学习基础强化学习教程强化学习教程评价
Pandas基础Pandas数据处理与分析Pandas数据处理与分析评价
SQL基础奇妙的SQL[奇妙的SQL评价](# 奇妙的SQL评价)
大数据开发基础妙趣横生大数据妙趣横生大数据评价
实践”大语言模型(LLM)实践 AIGC实践”ChatGPT原理与实践
面向开发者的Prompt工程
Prompt从入门到应用
Prompt手册
文本分类零基础入门NLP - 新闻文本分类
其他数据竞赛Baseline&Topline分享数据竞赛Baseline&Topline分享评价

RS

检查:张磊

课程性质课程类型课程名课程评价
基础Python基础聪明办法学Python聪明办法学Python评价
Pandas基础Pandas数据处理与分析Pandas数据处理与分析评价
NumPy基础巨硬的NumPy巨硬的NumPy评价
机器学习理论吃瓜教程
机器学习实践西瓜书代码实战西瓜书代码实战评价
深度学习理论水很深的深度学习水很深的深度学习评价
李宏毅机器学习笔记李宏毅机器学习笔记评价
深度学习实践深入浅出PyTorch深入浅出PyTorch评价
必修推荐系统基础有趣的推荐算法有趣的推荐算法评价
选修集成学习基础集成学习集成学习评价
强化学习基础强化学习教程强化学习教程评价
SQL基础奇妙的SQL奇妙的SQL评价
Excel基础自由Excel自由Excel评价
大数据开发基础妙趣横生大数据妙趣横生大数据评价
实践新闻推荐零基础入门推荐系统 - 新闻推荐零基础入门推荐系统评价
其他数据竞赛Baseline&Topline分享数据竞赛Baseline&Topline分享评价

CV

检查:徐乾凯,张凌翔

课程性质课程类型课程名课程评价
基础Python基础聪明办法学Python聪明办法学Python评价
NumPy基础巨硬的NumPy巨硬的NumPy评价
机器学习理论吃瓜教程即南瓜书,久闻大名,肯定不错(
机器学习实践西瓜书代码实战西瓜书代码实战评价
深度学习理论水很深的深度学习水很深的深度学习评价
李宏毅机器学习笔记李宏毅机器学习笔记评价
建议优先学习李宏毅机器学习笔记
深度学习实践深入浅出PyTorch深入浅出PyTorch评价
必修”图像处理基础 AIGC基础”OpenCVOpenCV评价
动手学CV动手学CV评价
”图像生成基础 AIGC实践”StableDiffusion教程StableDiffusion教程评价
实践语义分割零基础入门语义分割-地表建筑物识别零基础入门语义分割-地表建筑物识别评价
OCR零基础入门CV-街景字符编码识别零基础入门CV-街景字符编码识别评价
综合数据竞赛Baseline&Topline分享数据竞赛Baseline&Topline分享评价

BigData

检查:李尚敖

课程性质课程类型课程名课程资料
基础Python基础聪明办法学Python聪明办法学Python评价
SQL基础奇妙的SQL奇妙的SQL评价
Excel基础自由Excel自由Excel评价
Pandas基础Pandas数据处理与分析Pandas数据处理与分析评价
NumPy基础巨硬的NumPy巨硬的NumPy评价
机器学习理论吃瓜教程
机器学习实践西瓜书代码实战西瓜书代码实战评价
必修大数据开发基础妙趣横生大数据妙趣横生大数据评价

DS

检查:许煜恒

课程性质课程类型课程名课程评价
基础Python基础聪明办法学Python聪明办法学Python评价
SQL基础奇妙的SQL奇妙的SQL评价
讲的还行,能学到东西,但是后面完全没用上
Excel基础自由Excel自由Excel评价
Pandas基础Pandas数据处理与分析Pandas数据处理与分析评价
NumPy基础巨硬的NumPy巨硬的NumPy评价
机器学习理论吃瓜教程
机器学习实践西瓜书代码实战西瓜书代码实战评价
必修数据分析基础动手学数据分析动手学数据分析评价
选修集成学习基础集成学习集成学习评价
数据可视化matplotlib奇遇记只看了matplotlib的前两章,我觉得这里的画图也就是大概了解一下数据,又不是画出来放上论文给别人看的,没必要学太多……
极好的Plotly
实践分类零基础入门金融风控-贷款违约预测跟前面集成学习基础的案例分享挺像的,就是在复习前面的内容
零基础入门数据挖掘-心跳信号分类预测跟前面集成学习基础的案例分享挺像的,就是在复习前面的内容
回归零基础入门数据挖掘之二手车交易价格预测跟前面集成学习基础的案例分享挺像的,就是在复习前面的内容
综合零基础入门数据分析之学术前沿趋势分析跟前面集成学习基础的案例分享挺像的,就是在复习前面的内容
其他数据竞赛Baseline&Topline分享数据竞赛Baseline&Topline分享评价

OpenCV评价

徐乾凯

  • 整体评价:整体难度不高,挺清晰的,文字理论、图片、实例代码相结合,比较基础且内容量不太大,适合入门。对代码基础要求较低,在不追究几个公式的详细推导前提下对数学要求也不太高。

  • 有的章节只提供C++代码,有的章节只提供python代码,有点迷但不妨碍学习(一般来说现在OpenCV在python中用的比较多吧)。

  • 如果直接在github上查看网页端的markdown文件,里面可能有些latex公式无法正常显示,可以下载文件夹本地浏览,能正常显示。

  • 没有opencv基础介绍,以及imread、imshow、waitkey、destroyAllWindows这些基本函数的使用方法。

  • 01 图像插值算法主要处理图像放大缩小。错别字“像素”错写成“象素”。python和C++代码都有。

  • 02 几何变换主要处理图像的平移和旋转。warpAffined函数原型里的参数貌似写错了,以下方参数解释为准。只有C++代码没有python代码。

  • 03 彩色空间互转主要介绍图像在RGB和HSV空间互相转换,HSV格式的图像更利于理解和操作。只有C++代码没有python代码。

  • 04 图像滤波主要用于图像模糊、去除噪点、图像平滑化等。几个函数的参数解释都是英文,看不懂建议百度一下。也是只有C++代码没有python代码。

  • 05 阈值分割/二值化主要介绍了大津阈值法,一种用于将分离图片前景和背景分离开来,并生成前景黑白图片的算法。几个函数的参数解释也都是英文。也是只有C++代码没有python代码。

  • 06 边缘检测主要介绍了使用Sobel算子将图像中物体边缘单独分离开来的Canny算法。这章倒是只有python代码没有C++代码。

  • 07 Harris特征点检测算法用于寻找图像中物体的“角点”,是一种基础的特征点算法。只有python代码没有C++代码。

  • 08、09、10三章介绍了三个描述图像某些特征的算子,以前主要用于传统的人脸检测、人脸识别、行人检测等等,现在很大程度上被深度学习和神经网络干掉了,且理论部分都有些难度,这几章可以视情况选学。都有python代码。08章用400行C++代码根据原理自己实现了LBP算子,可以研究研究()

张淩翔

该课程侧重于使用OpenCV框架了解和实现图像处理算法。

内容上较为全面,包含图像插值,边缘检测等常见的图像处理算法。

讲义具体内容可能有一些难度,对于代码水平有一定要求,讲义(没有视频)更像是博客的集合。

期待做出更好地优化调整。

Pandas数据处理与分析评价

王崧睿

语言课都大同小异,自己判断熟悉了就ok

张磊

全书内容较为全面,学习完成后对pandas具有较为全面的了解,大致需要24学时。推荐有python编程、线性代数、概率论与数理统计、机器学习基础的同学学习。时间紧张的同学可以优先学习1-4、6-7章,其他章节可根据需要选择性阅读。

StableDiffusion教程评价

徐乾凯

项目还在持续更新,很多部分都没写完,写完的部分难度也比较大,对相关计算机、数学知识要求较高,最关键的文生图部分还没更新,建议视为选修。

动手学CV评价

徐乾凯

以Pytorch为框架,主要是深度学习、神经网络方面,和必修上一章OpenCV不太一样,建议都学。第四章图像分割入门还没更新,但已经三年没更新了,估计是没有后续了。没啥好多说的,写得很好,难度中等,内容量较大,推荐入门。(除了有时候Latex公式无法正常显示)

张淩翔

《动手学CV》是一个基于Pytorch框架的计算机视觉教程项目,包括简单的图像分类、目标检测、生成式对抗网络、以及Transformer在CV中的应用。算是一个“新手友好 注重实践”的课程。

课程中提供了丰富的代码,对于torchvision的API的解释也比较深入浅出,复制到本地就可以直接运行。

课程对于pytorch的要求不算很高,理论上学完python和numpy就可以直接学习(雾)

课程虽然没有视频教程,但是穿插了不少CV相关的实践项目,如一个识别街景字符的天池计算机视觉入门赛和

使用GAN生成手写数字。

动手学数据分析评价

许煜恒

第一章:这里的pandas基础难度有点大,不配合查资料基本看不下去,可能需要配合前面的pandas基础食用 第二章:感觉就是pandas进阶,还行 第三章:感觉就是sklearn教程,还行

基于transformers的自然语言处理入门评价

王崧睿

质量尚可,建议先看DL相关内容过渡

大语言模型(LLM)原理与实践评价

王崧睿

质量尚可,部分内容对前置知识要求较高,会比较难

奇妙的SQL评价

张磊

配合实践代码介绍了SQL的一些基础操作,大致需要6-8学时,适合有数据库原理基础或者有数据分析需求的同学学习

李尚敖

能看,但感觉并不是讲的最好的。讲的逻辑组织并不非常系统,但也算是有章可循。学了能会很多sql命令,但个人认为难以称为最棒的SQL教程。可以速通(约3d),学完后可以说基本会用SQL了。

描述中低于,高于通常指的是<=和>=。

第0章环境搭建,提供三个OS的教程(但没有ubuntu的)

centOS中讲的感觉显得复杂了,实际上Ubuntu安装只用去MySQL :: Download MySQL APT Repository下载一个deb包,安装后apt update,然后apt install mysql-server mysql-client libmysqlclient-dev就能安装,途中配置按着来就行。

也没有初始随机密码,修改密码策略这些事(我没用密码123456,不建议用这么简单的,哪怕是练习,要不然可能那天就真忘了)

各图形化数据库软件甚至提供资源,但明显偏windows一些,介绍界面也以Windows的为主,不过之后课程与GUI无关,命令行照学不误。

第1章讲sql基本操作

内容不错,不过组织逻辑不是特别清晰,可以边学边捋,内容没什么缺漏断层。

不过之前一直没说查看表要先

use ;select * from ,以及

show databases;show tables;可以查看有哪些表,可能会让萌新想看看自己修改的结果但不会看。

设置默认值可在插入/修改时写DAFAULT,就像写NULL一样。

第2章讲查询

关于DISTINCT他讲的有歧义。select distinct col from 是从table中显示col列中不同的值,不会删除重复的值(或者说,他只是把重复值再给你这次展示时折叠起来了)

2.5.2标点缺失,在给出常见错误原因后没加冒号。

2.5.2.1不一定得是聚合键,也可是其他列名的聚合函数

第3章是复杂查询

show tables;会展示表和视图,而show table status where comment='view';或者 select * from information_schema.views;可以只展示视图。

多表视图就给了段代码意会,没具体讲规则(

关联子查询有些略过,可以看看博客的文章。

NOT IN参数列表里不能有NULL,否则通常结果为空,因为NOT IN是AND,而与NULL做!=判断都是false

第4章是集合操作

关于Mysql讲的内容有些老了(不过作者后面说也是为了大家能看一些过时代码),Mysql8.0之后作者说的很多8.0以前不支持的功能现在都支持了,比如INTERSECT和EXCEPT。

第5章高级处理

讲了窗口函数,点了几个内置排名的RANK函数,又依靠代码讲了用聚合函数于窗口函数,随后教了自定义例程(其实就是自定义函数)

自定义例程这块更多是给代码来意会,关于规则没细讲(不过碍于篇幅应该也不好细讲)

妙趣横生大数据评价

张磊

介绍了主流的大数据处理框架Hadoop及其相关存储和计算引擎。既有理论又有代码实践,内容丰富且生动。大致需要12-16学时,适合有计算机基础/有大数据处理需求/为求职做准备的同学学习。

李尚敖

几乎每章都由背景——原理——教学——实操组成,内容极其充实且实用,

讲的形式有趣,穿插各种背景,历史,还有梗。练习内容也相当丰富,甚至还有期中与期末。写的相当让人满意。建议学。但耗时可能有些长,个人速通约4天。

第1章历史概论

相当有趣,速过

第2章 Hadoop配置

几乎是手把手教,巨详细

用的vi编辑器,建议可以还是先学missing-semester,再不济也先会个vi的基本操作,这个还挺重要的。

用/etc/profile并不好,最好编辑/.bash_profile以免影响全局

ssh localhost虽然看起来离谱,但真可以。port22报错的可以apt remove openssh-server 和ssh,然后apt purge他们,最后再安装一次

修改hadoop-env.sh文件配置处vim etc/xxx要改成vim /etc/xxx

第3-8章

颇为详细,没什么可吐槽的,写的很详细,内容作为导引是绝对够用了,能上手操控hadoop生态的各个大组件框架内容。

巨硬的NumPy评价

张磊

两部分:《从小白到入门》和《从入门到熟练》。 《从小白到入门》:较为基础,大约需要4-6学时,学习完成后能够掌握numpy中最为常用的api,推荐学习完python编程、线性代数的同学作为编程练习,并作为学习深度学习框架pytorch/tensorflow的前置课程。 《从入门到熟练》:内容较为进阶且不常用,适合想要扩展知识面的同学。

张淩翔

一般入门Numpy感觉有以下几种类型:

  • 直接冲到Numpy官网上去RTFM,如果你英文能力不是甚佳,十分容易放弃
  • 找一本介绍Numpy的书籍,如果其中的代码不是很好copy,再加上懒的敲而只看不做,可以安然入睡了

(以上两种方式我大一都实践过)所以入门Numpy的重点应该是保持兴趣以及删繁就简(也许吧)

这门课程虽然没有视频,但是其中的jupyter notebook文档已经足够你速通numpy了,课程讲义可以在本地一键运行,《从小白到入门》课程选择了Numpy中比较基础的几个部分,包括创建数组,矩阵运算等内容,并配以几道题目巩固所学。《从入门到熟练》则包括一些Numpy的原理介绍,小白可以后续查阅参考。当然也可以参考其他不错的资源如numpy中文网、菜鸟教程以及Numpy官网。

强化学习教程评价

王崧睿

感觉不如sutton的圣经 reinforcement learning。会更加全面底层,唯一的不足是DQN部分介绍的少,这一部分可以看推荐的easy-RL内容

张磊

综合了李宏毅老师的《深度强化学习》,周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》。主要为经典的深度强化学习算法,通俗易懂,质量较高,大致需要16-24学时,适合对强化学习有浓厚兴趣且无强化学习基础的同学学习。学习对应算法时可以结合原始论文一起阅读

数据竞赛Baseline&Topline分享评价

张磊

一些竞赛的baseline代码仓库,适合有兴趣参加竞赛的同学入门学习。仓库内赛题较多,选择几个有代表性的赛题学习即可。

徐乾凯

汇聚了一些数据竞赛的信息,不过貌似不怎么持续更新了()

许煜恒

集成了很多资源的中心,其中的资源我还没细看,但感觉还是挺不错的一份整合资源。

有趣的推荐算法评价

张磊

关于推荐算法较为基础和全面的介绍,包括推荐系统概述、推荐算法基础、推荐系统实战和推荐系统面经四个部分。内容较为详实,参考资料丰富,需要花费较多时间,适合有一定深度学习基础、对推荐算法感兴趣的高年级同学学习。面经部分适合有就业需求的同学为面试提前做准备。可以配合王喆 - 《深度学习推荐系统》以及王树森的视频课程《概要01:推荐系统的基本概念_哔哩哔哩_bilibili》一起学习。

李宏毅机器学习笔记评价

张磊

适合新手入门深度学习,课程后半部分各章节较为独立,可以选择性学习

徐乾凯

建议优先学习李宏毅机器学习笔记,文字教程+视频教程相结合体验良好,适合入门。

水很深的深度学习评价

张磊

质量一般,推荐学习吴恩达《深度学习》系列课程,约24-36学时,例如 1.0 深度学习概论_哔哩哔哩_bilibili

徐乾凯

知识点比较零散,文字教程比较简略,视频教程也没更新完。与李宏毅机器学习许多内容重复。

深入浅出PyTorch评价

张磊

pytorch较为基础的教程,大致需要6-8学时,学习完成后基本具备读懂pytroch代码及使用pytorch训练深度学习模型的能力

聪明办法学Python评价

王崧睿

python⼊⻔读物,怎么⼊⻔都⽆所谓,能写点题⽬就OK了

张磊

第一版基础但较为简略,适合有编程基础的同学快速入门python语法,学习完成后具备基本的读懂python代码的能力。 第二版资源丰富、视频课程较为详细,相当于24-36学时的教学量,适合无编程基础的同学花大量时间充分掌握python及编程知识。但是目前仅更新基础部分(0-6章),进阶部分(7-12章)尚未更新。

张淩翔

本门课程主要侧重于python语言的简单了解,并为后来的人工智能相关内容的学习打下基础,可以称为是“面向人工智能的 Python 专项教程”。课程拥有:

  • 独立的课程网站
  • 上传至B站的教学视频
  • 活跃的答疑社区
  • 可以下载的课程资源
  • 可供参考的课程笔记
  • Office Hours

可以算得上一门比较合适的在线课程。

在python编程中也更加侧重于为未来AI的课程设计打下编程基础,在内容上删繁就简,在基础版中选取了python中十分核心的语法点如基本的流程控制,数据结构等。(进阶版)还没有出来,编程小白易于上手。

在环境的配置上也是尽心尽力,使用conda, pip等包管理器,突出了人工智能的一大特点(当然不是调包),同时也能够让小白可以十分顺利的体验到配置环境的乐(痛)趣(苦)。

课程讲义使用jupyter notebook编写也算是一大两点,真的比独立的PDF+.py文件要好很多!!!如果你有志于入门AI并且还什么都不会(好好好),还是一个比较建议入手的课程。

李尚敖

看的文字版,未搭配视频。写的不错,但目前课程并未完结。基础部分前6章已告完结,但提高内容目前尚未发布,预计于本次寒假课程完结。

提供助教答疑,OJ练习,对新手难度相当友好,内容也相当详细

如果已经学过C/C++,完全可以看文字速通

从导论开始,

第0章讲安装配环境

第1章讲输入输出交互,注释杂项

第2章讲内置数据类型,基本运算操作,甚至是短路求值都讲

第3章讲变量,命名规则等,函数定义,返回值规则,表达式,基本函数与作用域,借助可视化工具(这个真的很好用!在理解一些难懂的代码时)

第4章讲条件判断,甚至也讲代码风格

第5章讲循环体

第6章讲字符串的表示,索引,切片,运算,内置函数和格式化字符串;有几个我之前都不知道的有意思的点(比方说repr()和python本并没有多行注释)最后还讲了文件操作。

替代课程:如果喜欢,可以考虑哈佛大学的CS50P,该课程共7讲,练习内容与讲解内容都相当全面。

自由Excel评价

张磊

介绍了excel一些基础且常用的函数和操作,大致需要2-4学时,对计算机基础没有要求,适合各类需要使用Excel进行数据分析、数据统计的同学

西瓜书代码实战评价

张磊

调用sklearn完成各机器学习模型的训练,较为基础,每章需要0.5-1小时,适合初学者学习完西瓜书对应章节后的编程练习

张淩翔

包含一些实现常见机器学习算法的代码,建议结合西瓜书和南瓜书阅读,提升对机器学习算法的应用能力。写的确实不错(

集成学习评价

张磊

课程分为三个部分:机器学习模型回顾,基于sklearn的集成学习方法介绍, 项目实践。集成学习方法和项目实践部分相对基础且实用,适合有机器学习基础的同学快速入门和了解集成学习的基本原理和实践方案,大致需要8-12学时。

许煜恒

机器学习的数学基础:基本上就是数学,从高中到大学 机器学习基础模型回顾:简单的概念讲的还行,复杂一点的算法感觉就讲的过于数学了,很多时候没怎么写思路就直接上公式了,看不懂 bagging:讲的挺好 boosting:讲的挺好 blending与stacking:讲的挺好 案例分享:基本就是复习前面的内容(除了特征工程),写的还不错

零基础入门推荐系统评价

张磊

取自《有趣的推荐算法》课程的推荐系统实战部分,大致需要5-7天时间,适合学习完该课程前两部分的同学作为实践项目进行练习。

零基础入门语义分割-地表建筑物识别评价 & 零基础入门CV-街景字符编码识别评价

徐乾凯

两场零基础入门系列赛事,一场关于语义分割一场关于字符识别,不用听到“赛事”就汗流浃背,实际上毕竟是新人赛,难度不算太大,并且提供了一步步完成比赛的任务指引和教程,还有参考代码(baseline),如果能把前面的部分认真学完这两场比赛应该没问题,很适合入门CV的小白实践。第一场比赛网址:https://tianchi.aliyun.com/competition/entrance/531872/information,第二场比赛网址:https://tianchi.aliyun.com/competition/entrance/531795/information,数据集上网站下载。