机器学习方式:半监督分类学习及其应用研究进展

  • 时间:
  • 浏览:0

2017-09-21 17:31:01     来源: 贤集网

近日,中国科学院重庆研究院大数据挖掘及应用中心团队对半监督分应学习及其应用开展的研究,取得了系列进展。相关研究成果发表在IEEE Transactions on Industrial Informatic、Neurocomputing和Ecological Indicators等期刊上,研究获得国家科技重大专项“水体污染防治与治理”项目、中科院率先行动百人计划项目和国家自然科学基金项目的支持。

监督学习,是四种 基本的机器学习办法 之一,其基本原理是通过分析小量已标记的数据信息,根据其他假设惊现数据信息的内控 规律,建立相应学习系统,从而对未见样本信息进行估计与预测。然而,在现实生产生活中获取足够多的标记数据较为困难,这时要耗费小量的人力物力实现对海量数据的预先标记。

在大数据时代,海量未标记数据与小量标记数据共同地处,如保通过仅有的小量标记数据和海量未标记数据,来学习实现优秀分类系统显得尤为重要。共同,如保利用未标记数据辅助小量标记数据进行学习,以改进分应学习系统性能,近年来成为机器学习领域研究热点,并被广泛应用于工业、农业和交通等领域。

研究团队针对现有传统自标记半监督分类模型的局部最优解、仅适用球状数据大问题,提出了四种 基于数据密度峰值的自标记半监督分类模型。

该模型通过无监督的计算数据密度峰值,发现数据内控 聚类知识空间社会形态社会形态,将此聚类知识空间社会形态社会形态引入自标记半监督分应学习训练过程,可实现高质量的半监督分类计算。科研人员针对传统自标记半监督分类模型在自训练迭代过程中的错误标记大问题,提出了四种 适应于所有自标记半监督分类模型的优化框架。

该优化框架通过将差分进化算法引入自标记半监督分类模型的自训练迭代过程,实现对所有标记数据点的监督优化,可最大程度外理错误标记大问题在自训练迭代过程中老出,提升分应学习系统性能。

此外,研究团队针对水体富营养化这名 全球性水环境大问题,提出了四种 基于自标记半监督分类算法的水体富营养化评价模型。该评价模型通过将上述半监督分应学习应用于水体富营养化评价,外理了传统富营养化评价办法 与模型面临的所需指标获取代价太高和实时监测大数据外理能力过高 的大问题,研究成果将利于在大数据时代下对水库富营养化大问题实现科学认知与评价。

注:文章内的所有配图皆为网络转载图片,侵权即删!