尚硅谷线上问诊数仓项目发布,是一个包含离线和实时两种数据处理方式的数据仓库项目。该项目主要面向医疗行业,将医院问诊系统的数据进行采集、清洗、转化和存储,以支持数据析和决策。
在离线方面,该项目使用Apache Hadoop生态系统中的HDFS分布式文件系统和MapReduce计算框架进行数据批量处理。数据流程包括数据采集、数据预处理、数据转换、数据汇总和数据加载等,以支持高效的数据分析和挖掘。
在实时方面,该项目使用Apache Kafka消息中间件和Apache Spark实时计算框架进行数据流处理和实分析。通过流处理和窗口运算等技术,可以对数据进行实时处理和分析,以及及时发现业务异常和机会。
该项目还包括数据仓库建模、数据可视化和报表开发等方面,以支持数据分析和展示。同时,该项目还支持多种展示方式,如Web界面、移动端应用等。
课程截图:
声明:本站所发布的一切视频课程仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站所有课程来自网络,版权争议与本站无关。如有侵权请联系联系客服QQ:1960026872或登录本站账号进入个人中心提交工单留言反馈,我们将第一时间处理!