艾巴生活网

您现在的位置是:主页>科技 >内容

科技

当我遇到ssd 当机器学习遇上SSD会擦出怎样的火花呢?

2023-12-29 12:17:01科技帅气的蚂蚁
近年来,人工智能和大数据的快速发展正在深刻改变世界和我们的生活方式。人工智能的核心是机器学习算法。从2006年开始,在机器学习领域,以

当我遇到ssd 当机器学习遇上SSD会擦出怎样的火花呢?

近年来,人工智能和大数据的快速发展正在深刻改变世界和我们的生活方式。人工智能的核心是机器学习算法。从2006年开始,在机器学习领域,以Deep Lerning为代表的机器学习算法取得了突破性进展,并且在2017年AlphaGo与围棋冠军李世石对战后,这一技术被加速推向市场并投入应用。SSD作为大数据的存储介质,正在取代HDD成为主流存储设备。那么当机器学习遇上SSD,会擦出什么样的火花呢?

一、什么是机器学习?

机器学习就是让计算机具备学习的能力,而不需要显式编程。——亚瑟塞缪尔,1959年

计算机程序使用经验e来学习任务T,性能为p,如果任务T的性能p随着经验e增加,则称为机器学习。——汤姆米切尔,1997年

机器学习(Machine learning)是一类算法的总称,从大量历史数据中挖掘出隐藏的规则,并用于预测或分类。更具体地说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是预期结果,但这个函数太复杂,无法形式化表达。需要注意的是,机器学习的目标是让学习到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现良好。将学习到的函数应用于新样本的能力称为泛化能力。

二、机器学习步骤

通常学习一个好的函数分为以下三个步骤:

1、选择合适的型号,一般要看实际问题。针对不同的问题和任务选择合适的模型。模型是一组函数。

2、判断一个函数的好坏,需要确定一个测度,也就是我们通常所说的损失函数。损失函数的确定也需要基于具体的问题,例如回归问题的欧氏距离和分类问题的交叉熵代价函数。

3、寻找“最佳”函数,如何在众多函数中找到“最佳”的一个是最大的难点,要做到快速准确往往不是一件容易的事情。常用的方法有梯度下降算法、最小二乘法等招数。

学习完“最佳”函数后,需要在新样本上进行测试。只有在新样本上表现良好,才能算是“好”函数。

三、机器学习的类型

机器学习有三种基本类型:监督学习、非监督学习和强化学习。

1监督学习

监督学习就是用已知正确答案的例子来训练模型。知道数据及其一一对应的标签,训练一个智能算法将输入的数据映射到标签,及其常见的应用场景如分类问题、回归问题等。常见的算法有K近邻算法、线性回归、logistic回归、支持向量机(SVM)、决策树、随机森林和神经网络。

分类

在分类中,机器被训练成将一个组分成特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤器会分析您之前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较。如果它们符合一定的百分比,这些新邮件将被标记为垃圾邮件,并被发送到相应的文件夹。那些不太相似的邮件被归类为正常邮件发送到你的邮箱。

也许你会问,这种分类算法对SSD有什么用?SSD中一个典型的分类问题是IO模式识别,即判断IO是纯读、纯写还是读写混合的三分类问题。判断IO是顺序的还是随机的,这是一个二元问题。根据实际情况,我们可以选择相应的机器学习分类算法来识别不同的IO模式,然后FTL可以针对不同的模式采取不同的策略,从而提高SSD的性能。

返回

回归问题通常用于预测一个值,其预测结果是连续的,比如预测房价和未来天气情况。比如一个产品的实际价格是500元,通过回归分析的预测值是499元。我们认为这是一个很好的回归分析。

回归算法可以用在SSD的什么地方?回归算法在SSD中的一个应用是IO强度的预测。在某种模式下,IO强度在时间序列上具有一定的规律性,可以根据上一期的IO强度预测下一期的IO强度。Smart-IO技术使用长期和短期记忆人工神经网络LSTM来预测IO强度。提前预测IO强度后,可以优化FTL策略,合理分配GC占用的资源,合理提高数据命中率,进而提高SSD性能。

2无监督学习

在无监督学习中,数据是无标签的。学习模型是推断数据的一些内部结构。无监督学习主要分为聚类和降维。

聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组分成不同的子组(例如,基于年龄和婚姻状况),然后将它们应用于有针对性的营销计划。大多数大数据可视化使用降维来识别趋势和规则。主要算法:K-means,层次聚类分析(HCA),DBSCAN。

高维数据中容易出现样本稀疏、距离计算困难等问题,即“维数灾难”。为了缓解维数灾难,降维是常用的方法。降维的主要方法有主成分分析(PCA)、线性判别分析(LDA)和局部线性嵌入(LLE)。如图所示,三位数据可以通过PCA简化为二维数据。

无监督学习没有标签,相当于比监督学习输入的信息少,在实际应用中监督学习会更困难,那么在SSD中是不是没用?不不不,Smart-IO数据分组技术利用K-means算法对IO的冷热数据进行分组,然后将不同组的数据写在不同的块或管芯上,因此可以降低WA,延长SSD的使用寿命。

3强化学习

强化学习算法的思想很简单。以游戏为例。如果在游戏中采用某种策略可以获得更高的分数,那么就要进一步“强化”这种策略,以便继续取得更好的成绩。这种策略和日常生活中的各种“绩效奖励”非常相似。我们经常使用这种策略来提高我们的游戏水平。AlphaGo也是下围棋的原理,只告诉机器围棋的基本规则,而不告诉它人类探索了几千年的公式等围棋战术,让机器完全依靠自学,打败人类。

强化学习和SSD的感觉很难接近,但熟悉SSD的人都知道,GC(垃圾收集)是SSD固件设计的重要组成部分,也是影响SSD主控性能的重要因素。一般的GC机制只是根据硬盘当前的空闲空间状态来做GC:有空闲空间时,不启动GC;另一方面,当没有空闲空间时,执行GC任务。这种策略的缺点是,如果用户在操作的时候SSD的性能明显下降,可以在主控制器空闲的时候提前做,但是过于频繁的GC会造成WA写放大过大,所以需要一个平衡,需要一个算法来自动决定什么时候GC。强化学习可以派上用场,给定一定的度量,然后机器可以通过强化学习自动学习GC的时机,得到更好的GC策略。

四、DapuStor机器学习技术

DapuStor基于SSD开发了Smart-IO数据分组、Smart-IO强度预测等先进技术,并将机器学习的先进算法应用于SSD,从而提升了SSD的产品性能。同时,自主研发的具有计算和智能的数据存储处理器芯片(简称DPU),可以在芯片层面实现更多的智能功能和硬件加速,实现存储和计算的一体化,满足高端存储和边缘计算市场的需求。