布条百科 - 专业百科知识分享的网站 手机版
首页 > 生活 >

数据集是什么? 信息集成平台之数据集

50次浏览     发布时间:2024-02-04 11:41:11    

摘 要

数据集是信息集成平台标准化管理中重要的一个组成部分,它是信息集成平台交换标准形成的基础、是数据中心物理模型的构建基础、是数据中心自动化数据存储的基础、是数据共享的基础。本文从数据集的生成方法、数据集校验机制、数据集在交换和存储及共享使用方面进行全面的论述,让大家对数据集有更加清楚的认识,同时希望本文有价值内容可以服务于工程实践。

关键词集成平台;数据集;过程集

正文

1、 引 言

数据集(Data set)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

上面是数据集的通用定义,本文中数据集是指某一类业务所涉及的数据集合,它包括两个方面的内容:数据集结构定义、数据集携带内容。这里以表结构来对数据集进行解释,数据集结构定义可以理解了表结构定义;数据集携带内容可以理解了表中的数据。但数据集结构定义与表结构定义有区别:

1、 一个数据集可以包括多个子集:如果检验报告至少会涉及到检验报告基本信息数据

集与检查报告明细项目结果信息数据集;

2、 多个子集之间有一种约束关系对其进行关联:检验报告基本信息数据集与检查报告

明细项目结果信息数据集是通过检验报告单号进行关系;

2、数据集有过程集的概念:如检验申请单医师开出来后,护士校对、采集标准、送检验等过程是检验申请单真正生效前的一些过程信息,是对检验申请单的补充与完善信息,这种业务环节中用到的数据集在本文中定义过程集。

2、 数据集定义

战略数据规划假设如下:任何一个组织都有10几个以上的业务域、任何一个业务域中都会涉及10几个以上业务流程、任何一个业务流程都涉及到10几个以上的流程节点。每个业务节点(除首尾结点)都是承上启下的环节,上一节点输出就是下一节点输入,这种输入输出所涉及到的内容实际上是我们要定义的数据集。通过业务场景下表现为一个申请单、一个报告单或一个采购计划。

根据对于业务节点输入输出的数据项进行梳理,能得到各种数据项的分类及相关属性信息:数据项的分类为数据集的子集定义形成基础;数据项属性信息为数据集中数据元定义奠定基础。

一个完整的数据集(除过程集、主数据集外)应该满足以下的四个要素:

以检验报告为例:时间有申请时间、上机时间、报告时间、审核时间、打印时间;地点:病人住院科室、病人住院病区、检验科室;人物:病人、开立医师、医嘱审核护士、标本采集人员、送检人员、接收人员、上机人员、报告人员、审核人员;事件起因开立开立单信息,结果为检验明细项目结果信息等。

3、 数据集在交换与共享体系中作用

信息集成平台以数据集为基础,可以形成第三方系统接入平台的接入规范,根据实际的

接入场景可以分:

1、发布规范:第三方系统调用此规范实现消息发布给平台;

2、订阅规范(拉模式):第三方系统采用此规范通过定时拉取的方式获取平台给出的消息;

3、订阅规范(推模式):第三方系统通过实现此规范,把获取数据的服务接口注册到平台中,当平台有此系统的订阅消息,通过实时推送的方式把消息给到此系统。

4、共享数据规范:第三方系统实现此规范,可以获取一个时期内的某类数据;

5、同步消息规范:第三方系统实现此规范,可实现两个不同的系统同步的获取消息。

4、 数据集在数据中心构建中作用

信息集成平台以数据集为基础,可以生成相应的物理存储模型。数据集有数据项,每个数据项都定义了数据类型、长度、精度;同时数据集上有业务主键的定义,数据集中子集之间定义了约束,这个可以理解为数据结构中的概念模型,通过与实际的数据库结合就可以生成数据库的物理模型。

通过数据集形成的系统交换规范,第三方系统采用这个规范通过XML、JSON的格式发布给信息集成平台时,平台可以理解发布出来的数据的结构与含义,平台接收到这类数据后,这些数据进行解析、转换,进行数据的自动化存储形成动态的数据中心。

5、 过程集

过程集是一种特殊的数据集,是以数据集为基础的虚拟的数据集,普通的数据集可以生成物理模型,并且在交换过程中能自动化进行业务数据的存储;过程集没有这个特性,他依附于某个数据集,只对某个过程所产生的信息感兴趣,如检验标准采集这个过程,它只关心某个检验申请单的标本采集时间、申请单状态、采集人员,所以过程集不会产生新的一份数据,只会影响它所依附的数据集的状态信息及过程信息。

过程集完善的是已有数据集的过程与状态信息,不会产生一份新数据,在业务流程分析时,以下业务流程节点:如审批环节、取样环节、报告环节、审批环节所产生的信息都可以定义为过程集。

6、 主数据集

主数据集是一类特殊的数据集,主数据是指支撑业务系统核心的基础数据,如科室、人员、药品、ICD等,这些数据集在定义时要充分、完整,考虑到这种业务系统的需要。

主数据管理采用以下原则进行:

1、 有信息系统支撑的主数据:采用主数据管理科室作为主数据进行定义、管理、分发;

2、 没有信息系统支撑主数据:有相对完善的系统对主数据进行管理的,选取这类系统

作为主数据定义、管理、分发的系统;没有相对完善的系统对主数据管理的,由平台对这些主数据进行定义、管理、分发。

相关文章

为什么鱼缸贵(养鱼哪种鱼缸比较好?)

1.热弯缸新手比较容易踩雷买到的第一个鱼缸,实质是普通玻璃经过加热变形制成的鱼缸。用的就是普通玻璃。除了透光度一般之外,热弯缸最要命的问题是安全性低,容易爆缸。另外带弧度的地方,观赏起来会使鱼缸里的鱼变形,影响观赏效果。优点‬就是‬价格便宜,30厘米‬左右‬的‬鱼缸‬基本‬在‬30块‬以内。不推荐‬

2025-05-01 10:37:46

为什么棒球垒球

棒球和垒球可以说是一对兄妹。它们的比赛规则以及场地、器材都基本相同。所不同的只是垒球的球体比棒球要稍大一些,也软一些,球棒较细较短,场地也较小一些。垒球一般适合在女子和少年男子中开展,而棒球则多半是青年和成年男子的项目。棒球运动起源于美国,世界上最早的一场棒球比赛就在美国纽约的古柏思讥举行,时间是1

2025-05-01 10:28:06

为什么会有漏电电流(漏电与触电)

漏电是指火线(第1方)与第3方(如:PE保护地线、大地、水、金属等导体)有不同程度的直接或间接接触,产生的电流叫漏电电流。一般漏电保护器必须与PE保护地线同时正常工作才能跳闸保护,缺一不可;无PE保护地线时(也就是缺一时),按实验按钮漏保也正常跳闸;所以,按实验按钮漏保能跳闸,就能保命,这是误导。漏

2025-05-01 10:21:31

钱串子为什么黄叶枯萎(多肉钱串子的养殖方法和技巧)

多肉钱串子,因其形态独特和生长习性而受到许多植物爱好者的喜爱。它的叶片肥厚,呈现出美丽的绿色,给人一种生机勃勃的感觉。养殖钱串子并不复杂,但需要掌握一些基本的方法和技巧,以确保其健康生长。 首先,选择合适的土壤是养殖钱串子的关键。钱串子喜欢排水良好的土壤,建议使用专门的多肉植物土壤,或者将园土与沙

2025-05-01 10:18:47

为什么风扇发热(电风扇使用与保养方法!)

电风扇是夏季家庭必备的降温电器,就算家里安装了空调,也会配备一两台电风扇,特别是方便移动的落地扇,能随时搬到需要使用的地方。电风扇的正确使用与保养,能够延长电风扇的使用寿命,在平时的生活中,需要掌握一些正确的使用与保养方法,从而降低用电量并延长使用寿命。一、正确使用刚买回来的电风扇,安装前要仔细阅读

2025-05-01 10:18:05

为什么电磁发热(关于电磁加热?)

电磁加热的原理是什么?电磁加热是通过电子线路板组成部分产生交变磁场,将含铁质容器放置上面时,容器底部金属部分产生交变电流(即涡流)使载流子高速无规则运动,摩擦产生热能。(想要详细了解,可以在百度搜索“电磁加热原理”关键词)。电磁加热器结构怎样?电磁加热器由两部分组成,第一部分为电磁加热控制器,首先将

2025-05-01 10:16:25