热门产品推荐

推荐热门产品：云呐提供先进的固定资产管理系统，帮助企业高效管理资产全周期。工单管理系统简化售后服务流程，提升客户满意度。日志审计确保业务安全合规。IT一体化监控系统实时监控运维，保障系统稳定。数据容灾备份系统提供可靠的数据保护，确保业务连续性。选择我们的产品，让您的企业运转更高效，更安全。

固定资产管理系统

全生命周期管控

自定义审批流
分级分权
员工自助管理
审批流管理
支持RFID盘点
仓库耗材管理

免费试用

工单管理系统

全场景流程自动派工

智能服务派工
立体报修渠道
自定服务流程
过程实时监控
时效性控制
内部知识库

免费试用

IT一体化监控

一站式IT监控和机房管理平台

设备状态监控
事件中心管控
机房动环监控
IT设施监控
可视化展示
物联网监控

免费试用

日志检测

全面丰富的日志监测

多源日志处理
中心化日志
日志关联查询
快速锁定故障
网络设备审计
共享协作

免费试用

云呐统一运维一体机|做运维需要全方位考虑问题

来源：云呐 2021-11-16 11:02:10

　　公司要你开发建立一个web服务器，并与开发人员合作让其他人访问。操作就是要做到一件事、一人少、一件事并保证生意。

服务方面

　　1.选择服务版本，要与开发沟通，如果要开发PHP语言，请询问他编写的代码是什么版本，不同版本可能不兼容某些语法，会导致错误。

　　为了选择稳定版，更新过多会导致bug，造成崩溃或服务出错。要想选择一个新版本，就必须有新特性，否则旧的版本最稳定。

　　一个简单的服务部署之后要做的是一个简单的测试，让服务器能够像往常一样运行，不能完全安装。在Java这个替代版本中，将1.7升级到1.8可能会导致一些JDK依赖于1.7，这一切都需要考虑。

　　在服务运行之后，要注意其启动用户，可能用户错误导致无法读取文件。例如，WWW用户在Nginx启动时无法读取/data查找HTML发送给用户。

　　在要使用库的时候，考虑表名称是否重复。当一个Redis用于缓存时，考虑写入的数据是否冲突。

　　2.基于企业的结构分析：使用Nginx还是apache，在选择之前填写调查文档，进行测试，编写测试文档，部署文档。

　　3.根据业务量选择计算机还需要有配置选择，这样可以使配置成为一个组合，例如，tomcat机器，每台8核的16G内存，硬盘100基，这一选项可作为创建虚拟机或购买云机器的套餐。

　　4.根据需求进行主从，或负载平衡选择，也可以选择备份容灾，CDN等。

　　5.分析诸如ip源地址、pv、uv等服务的日志。

　　6.对服务和系统进行优化，前期优化和优化后差异很大，性能可能会降低一倍。

　　7.安全保护，不仅仅是DDoS，还有登录问题。重点放在软件可能暴露的安全问题或Linux自身的系统问题上。

　　也许是某个Nginx版本突然说出问题了，您还没有关注，这样很容易被黑掉。

　　8.网络问题，很多时候都是这样，有些地方来得速度慢，可是有些人去的速度不慢，很头痛，需要抓包再逐步排查。

　　9.性能问题，一开始也许不错。当压力出现时，数据库可能会有缓慢的查询，需要检查和解决。也许有些网站的某些用户无法访问，或访问速度慢，需要进行检查。

　　这是最难得的，需要各方面的知识，若遇上突如其来的无法访问，那就回想以前做过什么操作，再有针对性地检查。

　　10.专注于版本问题，与前面的7层不同，nginx1.9将支持TCP的4层代理，这将大大改善性能，并有助于企业业务。

　　11.优化，不仅仅是对系统进行内核优化，还包括对服务进行概要优化，这需要长期深入地了解。缺省都是最标准的，但可以根据情况舍弃其中一部分，强化另一部分，使之符合业务。

　　例如Nginx做反向代理，可以优化内核参数，快速释放链接，以及缩短超时配置，从而能够处理更高的并发。但如果提供如PHP等服务，则要配置较长，才能达到稳定效果。

　　12.应考虑总体结构。例如Nginx做负载平衡，可能抗压能力很好，但后面的数据库监控只有3个，导致数据库带宽已满，还会产生无法访问的问题。

三、自动发布

　　1.如何发布，是手动还是自动，如果机器多，需要Jenkins等自动发布。

　　2.容灾问题，代码在发布失败时需要快速回滚，不影响问题，发布时也不要所有节点都发布，挨个节点发布。

　　3.还要备份旧代码，以防止将来可能突然出现需要回滚的问题。

四、总体而言

　　1.做好工作并非每天都在忙着做错事，大部分时间都是空闲的，此时就需要自我控制来学习东西。

　　2.运作的价值=节省的成本x你的意识x你的觉知。

　　操作不能直接获取价值，但可以进行优化，调整结构以节省开支，不发生事故就是最佳的价值。与此同时，分析日志可以为企业创造无形价值。

　　3.优化现有的方法，公司在成长时，一定会有很多隐患，例如，一开始就是用一只脚来批量操作10-20台机器，后面公司又有100台机器，要用ansible进行批量操作。以上均需自动化，还需自动发布，压力大可自动扩容，报警CPU不足自动调整缓解当前机器的压力。

　　4.服务也不是照着百度百科放在档案里就可以了，像负载平衡一样，可能调度算法填错了，导致一个压力大，一个压力小。也许服务也会占用一个CPU压力大，而其他都不会闲着。

　　5.要编写许多文档，如资产文档、机器配置、以及密码表、服务连接文档、部署文档、维护文档都要写，文档的功能之一是自己使用，另一个是等待您离开或新员工加入，他们可以迅速进行维护。

　　6.部署一项新服务，在上线测试之后必须要进行测试，而不是安装，需要找到深入测试的数据，模拟在线环境。

　　7.小心一点也不小心，任何操作都会反复思考几次，不要随意使用，例如重新启动在线nignx的reload，否则当前的业务中断。

　　8.监视非常重要，可以查看通信量，某些服务的内存是否超负荷，没有监测出什么问题，监控不仅要监视服务端口防止挂掉，还要有自己深度的使用，比如MySQL的慢查询，home等。

　　9.系统上，运行操作最好有一些发布流程，虚拟机应用程序，巡检过程等。巡视也很重要，云服务器也要检查是否磁盘已满，是否需要续费等。要不然什么时候出问题就大了。

　　10.进行业务机械规划，在有压力时进行扩展，逐步关闭。

　　11.测试也很重要，服务从多种角度进行测试，如nginx从静态页面、动态页面、提交数据、模拟多个在线用户的登录访问等等。

　　12.在修改文件之前必须进行备份，便于回滚，最好对操作日志进行审核。

　　（1）事先积累了技术，可能懂得了谋略，优化后让服务器性能提高2个点。

　　（2）提早预防问题，防患未然。

　　（3）考虑更多的可能性，即目前的结构可能是稳定的，但肯定不是最佳的。

　　云呐统一运维管理平台，通过对网络设备管理、服务器管理、存储设备管理、业务应用管理、无线管理、日志分析、办公设备/联网设备、动环系统等本地和异地网络的实时监控、自动巡检，精准采集、分析故障信息，判断重要数据性能指标，实现大规模数据中心的集中统一管理。如果对云呐统一运维管理平台有什么疑问，你可以联系在线客服，或直接注册免费试用云呐系统。