当前位置:首页 报考专业 大数据工程分析有哪些操作?

大数据工程分析有哪些操作?

发布时间:2023-10-15 12:26:08

1、预处理

大数据工程分析有哪些操作?

数据的预处理操作涉及到:一是数据的码制转换,常见的码制有GBK、UTF-8、UNICODE;二是繁简转化,尤其是港台的一些文字;三是html内容文本提取,从互联网采集的数据通常为HTML格式,需要将HTML中可以显示的文本内容提取出来,作为指定字段的内容;四是表情符的处理、字段的拆分与合并等操作等都是在数据预处理环节做的操作。

2、归一化

数据的归一化包含不同信源数据的字段归一化、特征归一化、时间归一化、地名归一化。首先,字段归一化是指将不同爬虫采集到的同一字段整合,比如不同爬虫采下来的作者字段,命名可能不同,有的可能叫发布者,有的可能叫作者,如果需要把数据整合到一起分析,首先需要把字段命名做归一。其次,时间归一化是指,比如表达时间,文本可能是某年某月某日的形式,也可能是2019/12/20的形式,也可能是几天前、几小时前,时间归一化要做的就是将这些时间的表达统一成一种表达形式,这样才可以做后续的数据分析和统计。

3、数据清洗

对数据采集过程中产生的噪音数据进行清洗,噪音可能是字段的部分内容,也可能是整条数据,比如做电商评论数据处理的时候,需要清洗掉字符数小于5的无效数据或者默认好评的灌水数据或者水军发布的数据,这一操作需要根据具体的需求及数据质量去确定。

大数据工程分析有哪些操作?

4、去除重复数据

数据存在重复是很常见的现象,但造成数据重复的原因是多种多样的,对于数据重复通常需要针对性处理,所以需要一个判断重复的标准。比较简单的就是所有都一模一样的判定为重复,这个也是比较好处理的,复杂的数据判重需要一个或多个字段联合,当字段为文本类型时,通常需要引入CRC或MD5算法产生新的判重字段。

温馨提示:
本文【大数据工程分析有哪些操作?】由作者 专业解读 转载提供。 该文观点仅代表作者本人, 自学教育网 信息发布平台,仅提供信息存储空间服务, 若存在侵权问题,请及时联系管理员或作者进行删除。
(c)2008-2025 自学教育网 All Rights Reserved