umich cv-1

news/发布时间2024/5/21 0:46:35

UMICH CV Image Classification---KNN

在本节课中,首先justin老师为我们介绍了图像分类了基础概念以及其用途,这里就不多涉及了

接着我们思考图像分类问题,如果我们想要直接通过某种算法来实现图像分类,显然是比较棘手的,于是引入了机器学习的思想,即用数据驱动,用数据去训练我们的分类器,再用新的图像来评估我们分类器的性能

然后介绍了几个常见的用于图像分类的数据集,比如说MINIST,CIFAR100,CIFAR10,IMAGENET,Place365等等

接下来介绍了图形分类中一种常用的算法,也是我们作业中要去完成的算法即Nearest Neighbor Classifier以及k-Nearest Neighbor Classifier

总体来说,我们大致需要两步来完成这个算法:
img
img
即第一步只是简单的记忆来完成我们的训练过程,第二步选择综合起来离预测图像最近的图像的label,作为我们的预测值
但是我们也可以发现这类方法的致命问题,那就是它的训练时间要比预测时间短,即我们可能很快就可以完成我们模型的训练,但是想要得出我们预测的结果需要很长时间,而这恰好与我们的理念是背道而驰的,我们不在乎要多少时间来训练,而想要尽快的得到预测结果

同时在执行此类算法时,有两个参数很重要,一个是k值的选择,即我们要综合考虑几个周围的邻居的距离来做出判断,一个是我们要选择什么来作为距离的衡量方式

img
img

从上面这两张图可以看出k值与距离公式的选择,对于分类尤其是决策边界有着一定程度的影响

因此,如何选择最合适的k值与距离公式,对于knn模型来说,是一个非常重要的问题
用更专业更普适的说法,就是如何去选择我们模型的超参数:
img

接下来就是讨论如何去设置超参数
img
首先第一种也是最直接的想法,我们只需要挑选在我们的数据集上表现最好的超参数
这种想法的问题就是会导致模型只在我们训练的数据上表现好,一遇到新的数据表现就不行

第二种就是将数据划分为训练集与测试集,找出在测试集上表现最好的超参数,但是这种想法和第一种也是相同的问题,我们的测试集数据会对模型对超参数的判断产生一定的污染,因而在新的数据上表现也不佳

第三种就是我们划分成train,validation与test三个数据集,用validation找出超参数,在test上测试,而这种的问题在于我们的test只能用一次,就是在找出超参数之后作为新数据测试,而如果我们经过很长的时间研究算法,调整参数最后去测试发现效果不好,一切都前功尽弃了,所以这种方法实用性也不高

最好的方法就是采用交叉验证
img
把数据集划分成不同的fold,每个fold依次扮演validation或者test或者train的角色
但是缺点也很明显,当数据量增大时,这种花费的时间显然非常久,我们可以将这种方法应用于小数据集

最后对knn算法的用途进行了讨论
img
除了我们之前提到的,knn算法的预测时间复杂度问题,其简单地使用距离公式来进行分类,有时也会产生错误,比如上面这张图,下方的四个图片的距离值都是一样的,但是显然它们有着巨大的差别

所以直接使用knn算法显然是一个不好的选择,但是我们可以在某些模型的某些步骤去应用knn算法
img
如上图所示,我们在ConvNet中对不同图片的特征向量使用knn进行分类,早最终的图片分类效果较好

最后放一张总结图:
img

ps:本次A1的作业比较简单,主要引导学生初步学习pytorch,在knn实现中,强调了向量化编程的重要性,减少循环的使用,最后使用交叉验证来寻找k值,这里就不再详细介绍具体实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ulsteruni.cn/article/14381628.html

如若内容造成侵权/违法违规/事实不符,请联系编程大学网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

针对简历可能提到的问题

目录C/C++C和C++的区别关键字continue和break的用法return的含义goto的含义Volatile的用法const可以和volatile一起使用吗union和struct的区别union和struct的内存对齐问题为什么要内存对齐?union判断大小端大小端转换空的structstruct在C和C++的区别struct和class的区别enum的…

AT_ddcc2020_final_d Pars/ey

我不知道离别的滋味是这样凄凉,我不知道说声再见要这么坚强。AT_ddcc2020_final_d Pars/ey 重工业题。 找环然后树形 DP 是显然的,先考虑断开环上的边怎么做。 把环复制一遍放在结尾,记 \(sum_i\) 为环长的前缀和,\(f_i\) 为该子树内的最长根链的长度,问题变为每次给定一个…

数据采集与融合技术实践作业一

作业一: 要求:用requests和BeautifulSoup库方法定向爬取给定网址(http://www.shanghairanking.cn/rankings/bcur/2020 )的数据,屏幕打印爬取的大学排名信息。 输出信息:排名 学校名称 省市 学校类型 总分1 清华大学 北京 852.5 综合2......实验: import requests # 方式…

! [rejected] master - master (fetch first)

! [rejected] master -> master (fetch first)原因 Git仓库中已经有一部分代码,所以它不允许你直接把你的代码覆盖上去。 远程仓库和本地仓库存在差异。 一般都是因为你在码云创建的仓库有ReadMe文件,而本地没有,造成本地和远程的不同步, 解决方法: 方法一、同步…