该帖子同步发自圈子:“项目经理圈子”开发组 (访问该圈子)
运行维护组的职责就是维护业务系统的正常运作,在工作时间保证业务系统的正常使用。 一:运行维护组工作职责由于整个业务系统的正常运行,涉及到应用服务器(appserver),数据库(oracle),网络,操作系统,服务器硬件等,其中任何一个环节不正常,都会导致整个应用系统无法正常使用。由于系统管理的分工和协作,所以运行维护组需要在系统管理组的工作基础上做好业务系统的运行和维护管理工作。据此,运行维护组工作主要应该有下面几点 1. 设计整个业务系统运行架构 2. 和操作系统管理员协调操作系统安装时的配置和调优,使适合应用服务器运行 3. 安装新的应用服务器 4. 调优操作系统运行参数,使更适合应用服务器运行 5. 调优应用服务器 6. 监控jvm运行情况 7. 监控数据库连接池情况 8. 监控一线操作人员登陆业务系统,业务使用系统情况 9. 监控业务系统整体运行情况(包括数据库,OS,网络) 二:每天例行检查对于每天业务系统正式使用前的例行检查,从整个业务系统来看,有下面几个方面 1.网络是否通畅(ping服务器),后期考虑从各个网段测试 2.操作系统是否正常(做远程登陆测试) 3.系统负载是否正常(cpu,ram,io,process),用top检查 4.数据库运行是否正常(做登陆尝试) 5.检查alert_SID.log文件,看是否有ora错误 6.检查数据库容量以及剩余空间情况 7.Apache是否正常(做http连接测试) 8.应用服务器是否正常(做http连接测试) 9.应用服务器和数据库连接是否正常(通过应用服务器做db测试) 10. 整个业务系统是否正常(做http登陆测试) 11. 检查磁盘空间是否足够(df) 12. 检查操作系统最后一次用户登陆(last) 13. 检查操作系统log情况(/var/log/ messages) 14. 检查普通用户su 为root情况(/var/log/ secure) 三:日常监控对于日常监控,个人认为有下面几点 数据库方面 1.定时做statspack统计,里面包含了很多的系统信息,基本足够用 2.监控listener情况,看是否正常 3.监控cpu负载情况 4.监控内存使用情况,以及内存交换情况 5.监控进程运行情况,是否有排队现象 6.监控altert_SID.log文件,看是否有ORA错误 7.监控网络流量 8.监控磁盘io情况 9.监控进程是否有长时间高cpu负载情况 10. 监控系统session等待事件 11. 监控是否有长时间锁对象情况 12. 监控是否及时归档 13. 监控data guard恢复情况 14. 检查备份是否可用 应用服务器方面 1.监控cpu负载情况 2.监控内存使用情况,以及内存交换情况 3.监控进程运行情况,是否有排队现象 4.监控网络流量 5.监控磁盘io情况 监控jvm运行情况,主要是内存回收和分配情况,便于性能调优 6.监控应用服务器数据库连接池情况 7.监控用户连接情况,从apache和应用服务器两方面监控
|