当前位置: 代码迷 >> 综合 >> # 吴恩达 · 机器学习笔记(① Introduction to Machine Learning)
  详细解决方案

# 吴恩达 · 机器学习笔记(① Introduction to Machine Learning)

热度:52   发布时间:2023-12-10 15:32:10.0

写在前面

在学习Python的时候同步进行吴恩达的机器学习,就像啃书一样,有些视频也需要啃下来。为了之后更好的烟酒生活,为了更舒服地融入新的环境中,那就加油吧!吴恩达机器学习共112章,按一天2节的进度,56天可以学完,余之游将至此始,恶能无记?壬寅三月也。

DAY 1

什么是机器学习?

计算机程序从经验 E 中学习解决某个任务 T,进行某一性能度量 P,通过 P 测定在 T 上的表现因 E 而提高。(重要的三元素:任务T + 经验E + 性能P)

最主要的两类机器学习算法:

  • 监督学习: 简单来说,就是我们会教计算机做某件事情
  • 无监督学习:我们让计算机自己学习
  • 其它还有:强化学习、推荐系统

监督学习(分类、回归、有标签)

指的是给定算法一个数据集,其中包含了正确答案,算法的目的是给出更多的正确答案
案例1——房价预测)—连续值预测正确值
在这里插入图片描述
更专业的术语来说,这是一个回归问题
这里的回归问题指的是:我们想要预测连续的数值输出(即价格),一般房子的价格会记到美分,因此价格实际上是一个离散值,但通常我们认为房价是一个实数、标量或连续值。「回归」这个术语是指我们设法预测连续值的属性

案例2——肿瘤预测)—离散值预测正确值
在这里插入图片描述
更专业的术语来说,这是一个分类问题:
0—良性肿瘤 / 1—恶性肿瘤
当然也可用下方的在一条横轴上用不同类型的符号表示。,但上述2个均只考虑了肿瘤的大小来判断良性恶性
在这里插入图片描述
这一种有年龄和肿瘤大小2个属性,机器学习能做的就是在中间划出一条分割线来区分是否为良性的肿瘤。

概括一下:

本节课讨论了监督学习,想法是在监督学习中,对于每一个数据集中的每个样本,我们想要算法预测,并得出“正确答案”,像房子的价格、肿瘤是恶性还是良性的。
我们也讨论了回归问题,回归指的是我们的目标,是预测一个连续值输出
我们还讨论了分类问题,其目的是预测离散值输出

DAY 2

在监督学习中,每个样本都被标明为(labled)阳性样本或者阴性样本,我们已被清楚的告知了什么是正确答案(即肿瘤是良性还是恶性)。
在这里插入图片描述
而对于无监督学习来说,数据集具有相同标签或者没有标签,即我们不知道什么是正确答案。我们只被告知这里有一个数据集,需要在其中找到某种结构来适配这些数据

聚类算法

对于给定的数据集,无监督学习算法可能将该数据集分成两个不同的簇,这就是聚类算法 clustering algorithm

案例:谷歌新闻(通过聚类生成新闻专题)
在这里插入图片描述
除此以外,聚类算法还广泛用于基因检测组织大型计算机群(便于协同工作)、社交网络(哪些和你是一类人)、市场分割(把客户划分为不同细分市场)、天文数据分析(星系形成论)等
在这里插入图片描述

鸡尾酒会算法问题

有一个宴会,一屋子的人,因为有许多人在同时说话,有许多声音混杂在一起,你几乎很难听清你面前的人说的话。假设一个鸡尾酒会只有两个人同时说话,我们将两个麦克风放在房间里,且这两个麦克风与两个人的距离不同,每个麦克风记录了来自两人声音的不同组合。我们能做的就是把这两个录音交给一种无监督学习算法,称为 “鸡尾酒会算法 cocktail party algorithm”,让算法帮你找出数据的结构,该算法就会分离出这两个被混叠在一起的声音。
在这里插入图片描述
鸡尾酒会算法的 Matlab 实现:
在这里插入图片描述

quiz习题

第 1 题
一个计算机程序从经验E中学习任务T,并用P来衡量表现。并且,T的表现P随着经验E的增加而提高。
假设我们给一个学习算法输入了很多历史天气的数据,让它学会预测天气。什么是P的合理选择?

A. 计算大量历史气象数据的过程
B. 以上都不
C. 正确预测未来日期天气的概率
D. 天气预报任务

第 2 题
假设你正在做天气预报,并使用算法预测明天气温(摄氏度/华氏度),你会把这当作一个分类问题还是一个回归问题?

A. 分类
B. 回归

第 3 题
假设你在做股市预测。你想预测某家公司是否会在未来7天内宣布破产(通过对之前面临破产风险的类似公司的数据进行训练)。你会把这当作一个分类问题还是一个回归问题?

A. 分类
B. 回归

第 4 题
下面的一些问题最好使用有监督的学习算法来解决,而其他问题则应该使用无监督的学习算法来解决。以下哪一项你会使用监督学习?(选择所有适用的选项)在每种情况下,假设有适当的数据集可供算法学习。

A. 根据一个人的基因(DNA)数据,预测他/她的未来10年患糖尿病的几率

B. 根据心脏病患者的大量医疗记录数据集,尝试了解是否有不同类患者群,我们可以为其量身定制不同的治疗方案

C. 让计算机检查一段音频,并对该音频中是否有人声(即人声歌唱)或是否只有乐器(而没有人声)进行分类

D. 给出1000名医疗患者对实验药物的反应(如治疗效果、副作用等)的数据,发现患者对药物的反应是否有不同的类别或“类型”,如果有,这些类别是什么

第 5 题
哪一个是机器学习的合理定义?

A. 机器学习从标记的数据中学习
B. 机器学习能使计算机能够在没有明确编程的情况下学习
C. 机器学习是计算机编程的科学
D. 机器学习是允许机器人智能行动的领域

参考答案:
1、C
2、A
3、B
4、AD
5、B
(答案仅供参考,若有不同意见欢迎评论区留言指出,感谢!)

  相关解决方案