大数据架构详解

    从数据获取到深度学习
    1. 常用linux调优命令和工具

      1. top 监控Linux的系统状态 CPU、内存的使用情况
      2. vmstat 获取有关进程、虚拟内存、页面交换空间及CPU活动的情况
      3. iostat 丰富的I/O状态数据
      4. nmon 免费的图形化数据采集展示工具
    2. MPP DB的适用场景

      1. 扩展性 理论上为 1000节点以上,实际上100 以内
      2. 并发性 单查询的表现优异, 一般查询场景 并发只能达到 50左右
        结论: MPP DB更适合小集群 100以内 低并发(<50)的场景
    3. SQL on Hadoop
      计算存储分离型
      impala+kudu/presto+kudu/

    4. OLAP & OLTP

    OLTP OLAP
    面向应用 日常交易处理 明细查询、分析决策
    访问模式 简单小失误,操作少量数据 复杂聚合查询,操作大量数据
    数据 当前最新数据 历史数据
    数据规模 GB TB~PB
    数据更新 实时更新 批量更新
    数据组织 3NF 反范式、星形模型