大数据应用开发流程

子凡 问答 2019-06-20 11:53:41 阅读(...)

大数据应用开发流程可以分为五个步骤:1、数据采集:也可以说是原始数据;2、数据汇聚:经过清洗可用的数据;3、数据转换和映射:经过分类。提取的专项数据;4、数据分析:模型的应用;5、数据可视化:分析好的数据可视化,更直观。

大数据应用开发流程可以分为五个步骤:1、数据采集:也可以说是原始数据;2、数据汇聚:经过清洗可用的数据;3、数据转换和映射:经过分类。提取的专项数据;4、数据分析:模型的应用;5、数据可视化:分析好的数据可视化,更直观。

大数据

数据采集

数据采集有线上和线下两种方式,线上一般通过爬虫、通过抓取,或者通过已有应用系统的采集,在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用 python 或者 nodejs 制作爬虫软件),ETL 工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据,如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作。并且目标数据源可以更方便的管理。

数据采集的难点在于多数据源,例如 mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel 统计文档、甚至是 doc 文件。如何将他们规整的、有方案的整理进我们的大数据流程中也是必不可缺的一环。

数据汇聚

数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产了,到了一定的量就是一笔固定资产。

数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?,数据是否可用? 需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等。还有如何从原始数据中导入数据等。

数据转换和映射

经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步,主要就是考虑数据如何应用,如何将两个?三个?数据表转换成一张能够提供服务的数据。然后定期更新增量。

经过前面的那几步,在这一步难点并不太多了,如何转换数据与如何清洗数据、标准数据无二,将两个字段的值转换成一个字段,或者根据多个可用表统计出一张图表数据等等。

数据应用

数据的应用方式很多,有对外的、有对内的,如果拥有了前期的大量数据资产,通过 restful API 提供给用户?或者提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据,供自己的应用查询?这里对数据资产的要求比较高,所以前期的工作做好了,这里的自由度很高。

大数据可视化

大数据可视化不仅仅是图表的展现,大数据可视化不仅仅是图表的展现,大数据可视化不仅仅是图表的展现,重要的事说三遍,大数据可视化归类的数据开发中,有一部分属于应用类,有一部分属于开发类。

在开发中,大数据可视化扮演的是可视化操作的角色, 如何通过可视化的模式建立模型? 如何通过拖拉拽,或者立体操作来实现数据质量的可操作性? 画两个表格加几个按钮实现复杂的操作流程是不现实的。

在可视化应用中,更多的也有如何转换数据,如何展示数据,图表是其中的一部分,平时更多的工作还是对数据的分析,怎么样更直观的表达数据?这需要对数据有深刻的理解,对业务有深刻的理解,才能做出合适的可视化应用。

0个人收藏 收藏

评论交流

泪雪默认头像 请「登录」后参与评论
  1. 加载中..

相关推荐

  • openEuler 开源操作系统

    openEuler是什么

    欧拉操作系统(openEuler)是一款基于Linux的开源操作系统。 支持鲲鹏及其它多种处理器,能够充分释放计算芯片的潜能,是由全球开源贡献者构建的高效、稳定、安全的开源操作系统,适用于数据库、大数据、云计算、人工智能等应用场景。
  • 企业数字化 Enterprise digitalization

    企业数字化服务是什么

    企业数字化服务是指通过软件、营销和数据三位一体的方式为企业提供数字化服务,是实实在在的把互联网、大数据、人工智能等数字科技手段与传统制造业深度融合的实践中出来的务实、可靠的To B的数字化服务的手段,帮助企业解决了数字化服务转型升级问题。
  • 大数据分析 Big Data Analysis

    大数据分析工具有哪些

    开源大数据分析工具有:Superset、Redash、Metabase、CBoard、Davinci、SpagoBI、Pentaho等;商业大数据分析工具有:FineBI、QlikView、Tableau、Power BI、SmartBI、QuickBI等。
  • CRM 软件系统 crm software

    CRM客户管理系统软件有哪些

    CRM称为客户关系管理系统,在企业和客户之间搭建起来的一种实时交互的管理系统,以达到企业整体收益最大化。CRM客户关系管理软件有:Zoho CRM;SuiteCRM;橙子CRM客户管理系统 ;Insightly;Team Face企典。
  • Electronic ID card 电子身份证

    电子身份证是什么

    电子身份证是通过人脸识别的生物技术比对后,于手机上生成的电子证件,用于用户身份识别,常用的为带时间戳的二维码或条形码,与居民身份证不同,证书中不含任何个人隐私信息,这样既确认了个人身份的真实性,又可有效避免个人信息曝光,保护个人隐私。
  • 数据湖 data lake

    数据湖是什么

    数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。