实时数仓需求开发流程 大数据面临哪些重要的技术问题?该怎样解决?

[更新]
·
·
分类:互联网
2101 阅读

实时数仓需求开发流程

大数据面临哪些重要的技术问题?该怎样解决?

大数据面临哪些重要的技术问题?该怎样解决?

第一标准化目前的大数据的这个标准化是非常重要的,就是每一个公司的这个计算标准是不一样的,这样的话大数据呢,最后得到的这个答案也是不一样的。
第二就是所谓的刘恒的数据那么牛行的数据呢很多,但是呢,大家可以看到这个刘恒的数据呢,通过大数据分析之后可以得到用户的一些信息啊,知道用户的一些取向喜爱的东西,那对于用户来说呢,其实呢,是不好的,所以说大数据呢,它适合于分析工业商业,但是呢,分析个人的话会产生的个人隐私,所以说大数据的安全这方面的话也是要考虑的。

实际上大数据经过近十来年的发展已经能够大幅提升数据处理能力及非常复杂场景的处理能力,改变着我们日常生活的方方面面,比如电信账单,支付,手机银,电商等等,同时也正因为场景的丰富又不断产生更大更丰富的数据增量,因此对数据技术的挑战也很大。现有的技术一般会分为离线计算、实时计算、在线分析来分别选择技术栈,比如典型hadoop生态(hdfs hbase 解决海量存储及特定查询,提高计算能力又提出的MR并行分布式计算模型,进而衍生出了分布式资源调度 yarn mesos等和结构化计算分析数仓,hive 及hiveQL,优先提升数据分析便捷度,降低开发难度.同样还衍生出了一系列数据工具便于迁移 转换等,其次实时场景流计算处理框架如 storm 及新一代流计算框架flink,还有成熟生态spark下的近实时处理spark-streaming,为了提升体验及场景硬需求,OLAP又突出尤为重要去apache kylin,druid,甚至又搜索引擎衍变的近实时分析ES等,另一方面数据库也从传统的结构化关系型数据量,衍生出nosql, newsql等分布式海量处理能力数据库方案,技术还在不断演进。
另外随着用户的需求增加和认知增长,数据实时性要求不断提高,无论从先有的技术体系来说都会随着需求不断发展,还会面临物联网的超级巨量数据,大数据技术必将迎来超高速发展,但中短期内,仍然不可能通过一种通用技术来形成标准解决方案,分工明细,根据业务场景各取所长组合应用。

大数据仓库前景?

绝对有钱途, 我推荐过两个大学毕业生,做了2,3年月薪都7-8k,如果英语不错,绝对上万
数据仓库最吃钱了,许多都是有钱的大公司钱没地花,大部分的数据仓库在投入前3年都没有多大的ROI,知道正在开始使用在markting, CRM才会产生更多revenue,但对于基本dashboard,还有作为stratedgy的数据基础。
没有数据仓库大企业势必会失去一些竞争优势,特别是前瞻。