数据整合的具体步骤
数据整合是一个复杂的过程,主要包括以下几个步骤:
1.数据抽取:这是数据整合的第一步,即选择并提取数据源集中的一个特定子集的处理过程。依靠数据抽取,可以准确地从大批量数据中仅***相关的数据。
2.数据传送:数据传送是紧接数据抽取的第二步,即将抽取到的特定数据子集发送到目的位置的处理过程。依靠数据传送,可自动保持数据的流通和共享。
3.数据清洗:对直接传送来的数据,在数据格式、数据编码、数据一致性等方面按照清洗规则进行处理。依靠数据清洗,可以保障中心数据库中数据的规范性。
4.数据重组:将清洗后的数据,按照新的数据组织逻辑进行关联处理,加强数据的内在联系。
5.数据发布:按照主题数据库层需要,将中心数据库中部分数据子集定期发布到主题数据库层。依靠数据发布,可以保障主题数据库层数据的及时更新。
6.服务重组:根据主题数据库中的数据,通过开放各类数据服务,提供面向各类应用的主题数据服务,以此加强数据的重利用。
7.数据展示:数据展示通常用报表或图形的表达方式来表示数据之间的关系,使使用者能快速直接的了解到数据变动情况。
在进行数据整合的过程中,还需要注意以下几个方面:
对于非树模型(比如NN、KNN等),应对所有输入特征进行变形。例如:对于KNN来说,数值越大的特征对KNN算法影响越大。
在应用MinMaxScaler或StandardScaler之前应使用特征裁剪!
数据建模是认识数据的过程,数据模型是数据建模的输出模型有很多种,例如企业数据模型,物理模型,逻辑模型,业务模型,数据使用模型等等。
通过数据模型管理可以清楚地表达企业内部各种业务主体之间的相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于系统的统一完整的视图。
以上就是数据整合的具体步骤和注意事项,希望对你有所帮助。
延伸阅读
参考资料为您提炼了 5 个关键词,查找到 37226 篇相关资料。