2

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

关于【数据分类算法】,今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。

  • 内容导航:
  • 1、数据分类算法:图卷积网络集成多组学数据分类新算法——MOGONET
  • 2、数据分类算法,国外顶级数据分类分级工具主要功能解析

1、数据分类算法:图卷积网络集成多组学数据分类新算法——MOGONET

导语

生物学中将研究同一类型数据称为某某组学。作为最典型的复杂系统,生物体的复杂性,使其发生的改变,会体现在多种类型的数据中。由此,通过整合多组学数据,可以更好地理解生物体的复杂性。最近一篇Nature Communications论文提出了新算法MOGONET。作为一种基于图网络、适用于多种组学数据的有监督算法,MOGONET可以进行多组学数据集成,并找出对应的生物标志物。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

论文题目:

MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification

论文地址:

https://www.nature.com/articles/s41467-021-23774-w

为何要使用多组学数据

组学技术的快速发展使得个体化医学能够利用具有前所未有细节的分子水平数据。例如mRNA 表达量、DNA 甲基化和 microRNA 表达量,可基于同一组样本中获得多组学(multi-omics)数据。然而每种组学技术只能捕捉到生物复杂性的一部分,唯有整合多种类型的组学数据,才可以为生物过程提供更全面的视角。在疾病研究中,集成多组学数据,可提高患者临床结果预测的准确性。因此,需要新的分析方法来有效地发掘多组学数据中的相互作用,利用好数据间的互补关系。

以前,由于收集和注释数据的费用高昂,以及缺乏关于疾病亚型的知识,带标记的生物医学数据很少。因此,大多数现有的多组学整合方法侧重于无监督的方法,在没有额外的表型信息时,试图从已确定的样本群中提取生物学见解。然而,由于组学技术和个体化医学数据库的快速发展,使带有详细注释的组学数据集正以前所未有的数量和速度变得可用。

之前对生物医学分类多组学数据进行有监督分类的方法分为基于特征连接的策略,和基于集成的策略。基于连接的方法通过直接将多组学的输入数据特征合并,来训练分类模型,从而集成了不同的组学数据;而基于集成的方法综合了不同分类器的预测结果,每个分类器都对同组学数据单独训练。然而,这些方法没有考虑不同组学数据之间的相关性,可能导致预测结果偏向于某些组学数据的影响。

随着深度学习在各种任务中的不断推进,越来越多的多组学集成方法开始利用深度神经网络,但现有的方法都是基于全连通网络的,没有通过相似性网络有效地利用样本之间的相关性。此外,基于深度学习的方法往往在输入空间或学习特征空间集成不同的组学数据,但不同类型的组学数据也可在抽象程度较高的隐空间中呈现独特的特征。故而利用不同组学数据类型之间的相关性,可进一步提高模型性能。

MOGONET的网络架构

MOGONET 在标签空间(label space)将组学特异性学习与多组学集成分类相结合。具体来说,MOGONET 先使用余弦距离构建了每种组学数据的加权样本相似性网络,再利用图卷积网络(GCN)进行单个组学的特征初始预测,以去除数据中噪声和冗余特征,生成对所属标签的初始预测。每个特定于组学的图卷积神经网络被训练使用组学特征和由组学数据生成的相应样本的相似性网络来执行类预测。与全连通网络相比,GCN 算法充分利用了组学特征和相似网络描述的样本间的相关性,从而获得了更好的分类性能。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图1. MOGONET 的网络架构

除了直接连接每个组学数据类型的标记分布外,MOGONET可利用每个组学特定 GCN 产生的初始预测,构造反映组学标记相关性的交叉组学发现张量。VCDN 通过在高层标签空间中探索不同组学数据类型之间的潜在相关性,可以有效地整合来自每个组学特定网络的初始预测,实现有效的多组学集成。MOGONET 是第一个利用 GCNs 进行组学数据学习的有监督的多组学综合方法。MOGONET 作为一个端到端的模型,所有的网络都可联合训练的。其网络架构如下:

MOGONET的预测准确,且可找到生物标志物

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图2.

使用MOGONET,基于单个或多个组学,在三种不同数据集ROSMAP(阿兹海默)LGG (神经胶质瘤)和 BRAC(乳腺癌)上的分类表现

上图展示了多组学分类的性能提升,不论使用那种评价指标,代表三种数据集合的绿柱子都是最高的。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图3. 超参数K的不同取值下分类效果的折线图

好的分类方法,对于超参数取值改变时,性能不会显著对比,上图分布对比了在LGG和BRAC数据集上,当MOGONET中最重要的超参数K从2变为10时,MOGONET表现相对稳定,且始终优于其它方法。

除此之外,MOGONET的另一特性是其能够从多组学数据的众多特征中,精准地找出那些能够让不同标签的数据区分出来的特征,这被称为生物标志物。例如在阿兹海默症的数据集中,可以找出那些基因的改变,会导致阿兹海默症的发生,从而为药物研发,疾病早筛提供知识依据。

郭瑞东 | 作者

邓一雪 | 编辑

2、数据分类算法,国外顶级数据分类分级工具主要功能解析

国际上对于数据分类分级一般统称为数据分类(Data Classification),用来描述按相关类别组织数据的过程。在此基础上根据需要对分类的级别(Classification Levels)和类别(Classification Categories)进行分别描述,以便可以更有效地使用和保护数据,并使数据更易于定位和检索。

Netwrix是美国一家提供信息安全与治理技术的网络安全公司,为用户提供以数据为中心的安全服务,被评为2020年Gartner文件分析软件市场指南“代表性供应商”、2020年Gartner Peer Insight文件分析软件“客户之选”。自2013年起每年均入榜德勤北美高科技发展500强企业,2019年其敏感数据保护解决方案带来178%的业绩增长率。

Netwrix的数据分类产品在2020年Gartner Peer Insight报告中被评为“最好用和最重要的数据分类软件”、“100%推荐率和易用性高的软件”。本文将主要介绍Netwrix数据分类平台的主要功能、运行环境配置以及具体功能组件,为洞察国外厂商数据分类相关工具的实现思路提供参考。

一.Netwrix数据分类平台功能和流程概述

Netwrix数据分类平台通过使用数据发现和分类工具(Data Discovery and Classification Tool,简称DDC)实现分类功能。工具自动识别不同应用程序的结构化和非结构化数据,并结合预定义的分类法对文件进行分类,基于分类结果展示数据的分布状态统计。其主要特点为:

无需部署客户端,使用基于WEB的管理控制台执行数据分类操作;通过HTTP协议和第三方应用API接口定位数据源;支持预定义的分类规则,实现对受GDPR、GLBA、HIPAA和其他监管标准保护数据的识别,也可以通过自定义分类规则查询识别其他数据;使用逻辑化和持续化的全文本索引模式,配合使用机器学习算法、语义分析自动查询文件内容;并为每种分类规则设置关联度得分,得分值可依据数据分类结果实时调整,用以调整文件匹配的范围;支持包括英语、德语、法语、汉语、日语、韩语等50余种语言的数据分类。

1.平台主要功能

Netwrix数据分类平台主要包括三个功能:数据采集、数据分类和数据分类结果的可视化呈现。上述功能通过基于WEB的管理控制台(Management Console)贯穿为一体,实现对分类过程的操作配置。

(1)数据采集

运行在数据分类服务器(Data Classification Server)上的数据分类采集服务(Data Classification Collector Service),采集数据源(Data Source)的文档后,将文档转换为纯文本,并形成文件元数据(Metadata)存储于数据分类SQL数据库(Data Classification SQL Database)。数据分类索引服务(Data Classification Index Service)基于收集的文档内容和元数据,创建全文本查询索引(Full-text Search Index),并将其存储至索引库(Data Classification Index)。

(2)数据分类

数据分类服务(Data Classification Classifier Service)根据Netwrix预定义的第三方分类法(Taxonomies)和用户自定义的分类法,对文件内容匹配后分类,最终将分类结果存储于数据分类采集数据库(Data Classification Collector Database)中。

(3)分类结果展示

通过查看管理控制台上的数据源及分类规则详细信息、统计审计报告如文件分布地图等功能,展示数据分类结果。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图1 Netwrix数据分类流程图

2.平台运行环境

根据实际数据分类需求场景,其运行环境基础配置如下:

(1)数据分类服务器

硬件环境:多核CPU,8G以上内存;

软件环境:操作系统Server2012R2以上版本,配置服务器(IIS)角色。此外,需将.CSE格式的索引文件添加至杀毒软件的白名单中,避免被当作恶意文件删除。

(2)数据分类SQL数据库

该数据库主要用于存储元数据的SQL Server数据库。

软件环境:2008SP2以上版本数据库(推荐2016SP2),Visual Studio2015以上版本。如果通过SQL Server管理工具配置该数据库,需将数据库的恢复模式设置为简单模式,并设置主数据库.mdf文件的自动增长值和最大值。

(3)索引库

此索引库是用来存储纯文本索引文件(.CSE格式)的磁盘空间,空间大小为计划索引文件总大小的35%。例如当前有45GB的文件需分类,则索引文件所需磁盘空间应至少为15GB。

(4)数据分类规模

Netwrix对数据规模的定义为:分类文件数量小于50万份,即为小型规模;800万左右为中等规模;3200万左右为大型规模;大于3200万则为超大规模。

(5)数据分类性能

数据分类性能取决于数据规模,当分类数据规模达到大型和超大规模时,建议使用分布式服务器集群部署模式来均衡主服务器的负载。集群中的每个数据分类服务器共享同一个元数据库,各自存储索引文件,彼此之间相互通信。

二.平台主要组件功能解析1.数据采集

数据源是需采集和分类的数据存储库。通过管理控制台的数据源内容配置功能,实现对需采集数据源的添加和管理,添加后可查看数据采集结果。

Netwrix支持分类的数据源有:Windows文件系统、Windows Server系列服务器、Linux文件系统(SMB/CIFS/NFS)、Office 365、数据库、Outlook(2010以上版本)、DropBox、Exchange服务器/邮箱、Google Drive、SharePoint等。在数据采集阶段,除了选择需采集的数据源类型,还需针对每种数据源配置相应的采集选项,以便于更精细化地定位。此处以常用的两种数据源——数据库和文件系统为例,描述添加数据源功能。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图2 选择需采集的数据源类型

(1)数据库

Netwrix支持对SQL Server(2008以上版本)、Oracle、PostgreSQL、EMC等主流数据库内容的采集及分类。采集前需要先设置数据库访问用户名(如Windows服务或IIS程序池用户)或连接信息。数据库连接创建成功后,数据分类采集服务即可将采集到的内容智能映射为元数据。数据库内容采集的主要配置项如下:

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图3 数据库采集配置项

数据库类型。从SQLServer、Oracle、MySQL、PostgreSQL等选项中选取所需采集的数据库类型。

数据库服务器信息。设置采集目标数据库的服务器地址、具体数据库名称、登录用户名和身份认证方式。

OCR处理模式。Netwrix可以通过OCR模式采集数据库文件中的图片内容,可从“禁用/默认路径/标准质量/增强质量”4种模式中选择。

数据库采集范围。设置需采集内容的数据库表、列的范围。

(2)文件系统

Netwrix支持对Windows文件系统和Linux文件系统的内容采集,其主要配置项如下:

文件(夹)路径。设置需采集内容的文件(夹)路径。

文件夹级别。设置采集文件夹深度,可以选择是否包含子文件夹、是否采集所有子文件夹,以及子文件夹深度的范围(2-99级)。

文件夹访问信息。设置访问文件夹所需的系统帐户和密码,以及是否允许匿名访问文件目录;

重新索引周期。当源文件发生变更(增加/修改)后,Netwrix分类会定期更新索引,默认更新周期为7天。

文件类型。设置需采集的文件类型。

是否采集相同内容的副本文件,以及采集文件的优先级。

(3)查看数据源采集结果

数据采集流程自动对数据源进行采集、格式转换和创建索引的处理操作后,即可在管理控制台上查看数据源采集结果,包括:数据源类型、数据源文件位置、数据源采集状态、数据源索引创建状态、数据源采集文件数量及总大小。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图4 数据源采集结果

2.数据分类

Netwrix数据分类工具提供预定义分类法,这些分类法包括数百个现成的分类规则。每种分类法包含一系列术语(term),术语又由一系列配置规则(configuration clue)定义。通过使用规则与文件内容进行匹配,最终定位源文件的所属分类。

(1)分类法

Netwrix数据分类平台所提供的预定义分类法共8种,其中4种核心分类法覆盖了个人、金融、医疗等领域,包括:财务信息(Financial Records)、PII(Personal Identifiable Information,个人可识别信息)、第三方支付行业数据安全标准(Payment Card Industry Data Security Standard,PCI DSS)、患者健康信息(Patient Health Information,PHI),余下4种衍生于核心分类法,用于满足部分特定的合规性要求,称为衍生分类法,包括:GDPR(通用数据保护条例)、GDPR第九章中涉及的个人信息特殊类别、GLBA(金融现代法案)、HIPAA(医疗保险可携性和责任法案)。除了上述预定义分类法外,用户也可以添加自定义分类法。

(2)分类规则

分类规则通过复合词精确/模糊匹配、区分大小写、单词发音、正则表达式、语种类型匹配等11种匹配方式,查询文件内容后对其分类。此外,用户也可以添加自定义分类规则,添加时可设置规则的分数,代表其与分类特征的关联度。分数越高,则关联度越高,此项规则可用于对文件进行分类的概率越大。

分类规则用于描述文档中发现的语言,使得文档归属于特定的主题。Netwrix提供预定义分类规则用于查询文件内容,这些规则涵盖了如英语、法语、德语、西班牙语等多语种的个人可识别信息(姓名、家庭住址等),以及英国、新加坡、南非等多个国家的识别码和登记码。

(3)分类标签

Netwrix支持将分类标签写入被采集数据的属性中。具体操作方式为:在管理控制台上,将分类标签写入到指定数据源的属性中。分类标签可采用[分类名称|分类ID]的格式呈现。

例如:农业分类法中有农场(ID为11)和生产(ID为32)两个子分类。当同时包含农业和生产的文件分类完成后,分类标签即写入该文件的属性中,即文件属性增加项——属性名称农业,属性值[农业|11;生产|32]。

3.数据分类结果展示

数据分类结束后,即可在管理控制台通过多种方式查看分类结果。

(1)通过数据源查看

选择某项数据源,即可查看已采集的数据信息,包括:文件名称、路径、分类状态、匹配的分类等内容。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图5 通过数据源查看文件分类结果

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图6 查看每个文件对应的分类

(2)通过规则查看

选择分类法及其子节点中的术语,即可查看该术语对应的规则信息,包括:规则类型、规则名称、规则的分数。选择每种规则,即可查看与之匹配的文件数量。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图7 通过规则查看分类结果

(3)文件分析报告(Data Analysis Report)

可在Netwrix管理控制台上查看数据分析报告,对报告中的数据进行筛选和细化,以查询包含文件按照分类结果的分布状态。常用的报告有三种:文件分布地图(按分类和数据源分组统计),以及最近一周分类标签分配情况。

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图8 文件分布地图-按分类法分组统计

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图9 文件分布地图-按数据源分组统计

数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET

图10 最近7天分类标签分配情况

三.小结

Netwrix作为全球500余家公司的数据安全治理供应商,实际数据分类、数据审计、数据安全功能远不止这些。Netwrix的数据分类工具作为数据安全的基础,提供了诸多参考方向,例如:无需单独部署客户端,使用一套服务器、一个WEB管理控制台的轻量化部署,即可完成数据分类全过程;可基于不同种类的分类数据源配置相应的分类配置项,为更精确的定位数据源提供支撑;使用预定义的数据合规分类法及其规则,满足国外对个人隐私数据识别的主流需求;使用多维度的象限统计图表,更直观地查看数据的分布情况。除此之外,Netwrix的数据审计和数据安全功能,能够提供以数据分类为基石、以用户实体行为分析UEBA(User and Entity Behavior Analytics)为核心的数据安全审计功能,最终形成数据防护流程体系。鉴于此,其数据安全治理理念仍值得深度解读。

本文关键词:数据分类算法优点,数据分类算法实验报告总结,数据分类算法判断题及答案,数据分类算法的基本过程,一维数据分类算法。这就是关于《数据分类算法,图卷积网络集成多组学数据分类新算法——MOGONET》的所有内容,希望对您能有所帮助!

本文来自网络,不代表本站立场。转载请注明出处: https://tj.jiuquan.cc/a-2242521/
1
上一篇 囡有几个读音,这两个字有些人很熟悉
下一篇 信口开河的意思,信口开河什么意思(国考复习中易混淆的10组成语)

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: alzn66@foxmail.com

关注微信

微信扫一扫关注我们

返回顶部