En producción: consejos sobre fiabilidad – Parte 4/6

Penúltimo artículo de la serie de sistemas en producción y de alta disponibilidad centrados en mejorar la fiabilidad. En los anteriores se hizo una introducción a este tema con algunas métricas y consideraciones, luego vino otro artículo con los tipos de mantenimiento posibles, y el anterior lo dediqué a mostrar el procedimiento para elegir los componentes más fiables.

Ahora es el momento de apuntalar todo lo anterior con algunos trucos y consejos finales…

En busca de la fiabilidad 2

Termino con estos trucos, consejos y la resolución de algunas dudas frecuentes con un apartado final de FAQs…

Trucos y consejos

Tips, consejos

Aquí tienes algunas consideraciones que siempre tengo en cuenta a la hora de elegir mis equipos y que tal vez te sirvan de ayuda para mejorar la fiabilidad en los equipos que adquieras en futuras compras. También he incluido algunos conejos de uso para no contribuir al deterioro de los sistemas.

Sé un usuario bueno…

He observado, en varias ocasiones, que he recomendado algún modelo a otro usuario y que yo mismo tengo. A mi me suele durar de media siempre más años. Y eso me llevó a preguntarme el porqué. Evidentemente, dos dispositivos de la misma marca y mismo modelo no son exactamente iguales, y pequeños defectos de fábrica podría hacer que la vida útil sea diferente. Pero si eso se repite en más casos, me lleva a pensar que hay algo más…

A veces, he visto a usuarios hacer todo tipo de cosas con sus equipos. Desde apagar directamente con el botón de la fuente de alimentación sin hacer un apagado correcto, hasta tirar literalmente los móviles/portátiles sobre la mesa sin apoyarlos de forma suave, etc. Todos esas pequeñas manías irán haciendo que las fallas se adelanten. Para evitarlo, aquí tienes algunas recomendaciones básicas:

  1. No dejes dispositivos sensibles al magnetismo junto a fuentes de magnéticas grandes como los imanes de neodimio, altavoces, etc. Algunas memorias podrían deteriorarse si las fuentes magnéticas alteran sus propiedades. Además, las viejas pantallas CRT también se vehían alteradas al tener cerca fuentes magnéticas, lo mismo ocurre con cables de señal como los coaxiales, etc.
  2. Cuidado con las cargas electrostáticas (ESD). No abras equipos y los toques con las manos si no sabes bien lo que haces. Las memorias y ciertos chips son especialmente sensibles a estas descargas, por eso deberías usar pulseras antiestáticas para las manipulaciones.
  3. Estira siempre los cables, no los dejes enrollados, eso podría causar un efecto bobina que perjudica tus equipos. Especialmente se nota en los sistemas de audio, y podríamos notar un pitido o ruidos en nuestros altavoces.
  4. Cuida los cables, no los enrolles de cualquier manera, algunos tienen hilos de cobre grueso en su interior en vez de trenzados y podrían partirse al ser menos flexible, por tanto tendríamos un circuito abierto inservible. Es importante que tengas bien organizado y protegido todo el cableado.
  5. Conecta tus dispositivos en la zona trasera o menos accesible de tu equipo. Eso evita que podamos golpear el plug, haciendo palanca en el puerto y creando una holgura en él. Eso termina evitando un correcto contacto eléctrico. Por eso siempre aconsejo comprar portátiles con una conexión del cargador en forma de L en vez de las típicas clavijas rectas. Ante un golpe, las rectas hacen mayor efecto palanca dañando el puerto AC y al ser más largas es más probable que las golpeemos. Y he tenido que reparar muchos portátiles que ya no cargaban por este motivo…
  6. Es frecuente ver a gente «tirar» literalmente su teléfono móvil, pendrive, o cualquier otro elemento sobre la mesa o cualquier otra superficie. También suelen dejar los portátiles o medios de almacenamiento secundario de una forma poco delicada a veces. Eso podría hacer que el cabezal impacte con el disco del disco duro y lo deje inservible, o que cualquier otra pieza se suelte o se rompa. Ser más cuidadoso te puede evitar averías, créeme.
  7. El almacenamiento y transporte de los equipos debe ser también el adecuado. Por ejemplo, busca fundas con acolchado adecuado para un transporte más seguro. No guardes tus equipos en zonas donde les de la luz directa, haya una temperatura elevada o demasiado baja. Y sobre todo, evita la huemdad. Para ello podrías usar una simple bolsa de sílice o elementos secantes similares si vives un una zona muy húmeda.
  8. Apaga todos tus equipos cuando no los estés utilizando, eso implica también el router. Además de ahorrar en la tarifa eléctrica, eso evita que se sobrecalienten o tengan usos demasiado intensivos, especialmente en épocas calurosas. Recuerda que la temperatura ambiental y de funcionamiento son críticas para alargar la vida de la electrónica.
  9. Mantén la suciedad lejos de tus sistemas. El polvo y las pelusas pueden obstruir partes mecánicas, como: los teclados, sistemas de refrigeración, etc. Mantener una higiene mínima podría evitar problemas como los cortocircuitos entre pistas de un circuito impreso o entre pines de circuitos integrados por partículas de suciedad, sobrecalentamiento por obstrucción de ventiladores y disipadores, o teclas endurecidas por suciedad… Por tanto, lleva un mantenimiento adecuado de sus sistemas, no solo del software, también acuérdate de vez en cuando del hardware.
  10. Mima de las baterías. Actualmente vivimos en la época de la movilidad, y eso implica usar baterías. Las actuales de litio, tengan más o menos efecto memoria, siempre debes mantenerlas con unos niveles adecuados de carga, evitar dejarlas conectadas demasiado tiempo al cargador, aunque en la actualidad hay sistemas que «desconectan» la alimentación cuando se carga al 100%. Las altas temperaturas también son nocivas para las baterías, por eso evita situarlas cerca de focos de calor, implementa un buen sistema de refrigeración, evita ponerte el portátil sobre las rodillas (obstruyendo las rejillas y aportando calor extra), etc.
  11. No sobrecargues las baterías ni fuentes de alimentación.
  12. Evita obstaculizar las rejillas o sistemas de refrigeración.
  13. Mantén la comida y bebida alejada de los equipos para evitar accidentes. Y limpia correctamente teclados, ratones, y otros componentes abiertos (puertos, rejillas, sistemas de refrigeración,…). Usa siempre los utensílios y productos adecuados, por ejemplo, para las pantallas evita usar productos con alcohol o que no están diseñados específicamente para monitores TFT/LCD. Hay productos específicos para ellos…
  14. Utiliza en casa/oficina, purificadores de aire y deshumidificadores. Aunque parezca una estupidez, mantener unos niveles correctos de HR y un aire limpio por filtrado HEPA, no solo es saludable para ti, también para la de los equipos…
  15. Evita que tus equipos estén sometidos a cambios bruscos de temperatura, ya que eso podría hacer que las uniones y soldaduras sufran tensión por la dilatación/contracción desigual de los diferentes materiales y terminen con grietas o roturas.

Evidentemente los accidentes ocurren, pero si llevas esta lista a cabo, verás como la cantidad de eventos problemáticos disminuye. ¡Garantizado!

Almacenamiento del almacenamiento y protección de datos

Llamalas copias de seguridad, respaldos o backups, pero hazlas. Es vital realizar copias de seguridad de forma periódica para no perder datos en caso de que ocurra alguna falla en el medio de almacenamiento o que te veas infectado con ransomware, etc.

Aunque parezca una estupidez, recuerda retirar los medios externos de forma segura. Si no lo haces así, puede que algunos datos no se hayan pasado correctamente. Eso significa pérdidas de datos o corrupción de archivos.

Por lo general, siempre suelo decir que la frecuencia de las copias deberías ser directamente proporcional a la importancia de los datos. Un usuario doméstico se podría permitir relajar las copias de seguridad, mientras que una clínica sanitaria, debería hacerlas de forma casi constante para evitar que los datos de pacientes, historiales, etc., se pierdan.

Ahora bien, no solo es importante hacer copias. También es importante hacerlas en el medio adecuado, ya que algunos medios pueden ser demasiado sensibles como para ser confiables. Por ejemplo, deberías evitar copias de seguridad en discos ópticos (CD, DVD, BD), ya que se pueden deteriorar en unos años (p.e. por hongos Geotrichum) o rayar. Es preferible que elijas memorias de estado sólido o discos duros externos (desconectándolos físicamente cuando termines la copia para evitar que estén conectados y puedan ser accedidos por ataques remotos).

Recomendación: muchos gobiernos y organizaciones usan la regla 3-2-1. Es un truco que te puede ayudar con tus copias de seguridad. Se refiere a que deberías:

  • Mantener siempre 3 copias de cualquier fichero. Es decir, el original y 2 backups.
  • Usar 2 tipos diferentes de almacenamiento, lo que los protegería frente a diversos riesgos.
  • Y siempre almacenar 1 copia de seguridad en otro lugar diferente, es decir, fuera de la oficina o casa donde están las otras. Eso posibilitaría salvar los datos en caso de que ocurra un incendio, inundación, etc.

Tanto si te decides a almacenar en un medio óptico como en otro tipo de medio, el almacenamiento es otro de los puntos críticos. De poco sirve que hagas copias, y que las hagas en el medio correcto, si luego el almacenamiento no se hace de forma correcta y se termina deteriorando, con la consiguiente pérdida de datos. Para hacerlo de forma correcta:

  • Protección física: usa el envoltorio adecuado, pueden ser fundas/protectores que eviten que el medio se golpee, raye, sufran descargas ESD, etc. Es decir, una protección física.
  • Ambiente: deberías controlar la humedad relativa (HR) para que esté siempre entre valores adecuados. Puedes usar sistemas deshumidificadores o materiales porosos como las bolsas de gel de sílice, etc. Tampoco deberían estar en ambientes con temperaturas extremas, ni donde les de la luz directa. Otro factor a considerar es el polvo en suspensión, ya que podría también deteriorar el medio.
  • Lugar: el dónde se almacena también es importante. No deberías almacenar los medios en sótanos (húmedos) ni zonas bajas innundables, si vives en una zona donde se puedan producir este tipo de catástrofes climáticas.

¡Atención con la coherencia de las copias! Si no sincronizas adecuadamente las copias de seguridad te podrías llevar la ingrata sorpresa de que has sobrescrito datos, que no se han copiado los datos más actuales, que algunos se han copiado varias veces, desaprovechando mayor cantidad de espacio en el medio, etc.

Otra recomendación es usar redundancia cuando se manejan datos sensibles. Estos ería una alternativa a las copias de seguridad. Puedes usar los diferentes niveles RAID para ello, según te convenga. Así, si una unidad de almacenamiento falla, se puede recomponer todo con ayuda de las que están operativas.

El uso de los servicios cloud computing, o computación en la nube, son también otra opción. Aunque deberías evaluar sus ventajas y desventajas. Una de las mayores ventajas es la comodidad de dejar todo ese mantenimiento y administración al personal del centro de datos o servicio contratado. Pero también es cierto que estarás usando un sistema no local, lo que podría generar desconfianza si tienes que manejar datos sensibles.

Montaje del clon

Si has optado por montar tu mismo el equipo, entonces deberías tener en cuenta algunos pequeños detalles que pueden marcar la diferencia. Por ejemplo:

  • Estudia bien los manuales y datasheets con las recomendaciones del fabricante antes de montar el elemento. En ocasiones puede haber particularidades que importan a la hora de montar el elemento de forma adecuada. Por ejemplo, el famoso socket TR4 de AMD, incluye unos tornillos que se deben retirar o atornillar en un orden muy específico (vienen numerados) y se usa una llave de torque para los tornillos Trox…
  • Usa las herramientas adecuadas, y eso también incluye una pulsera antiestática. No disponer de los útiles adecuados podría hacer que fuerces ciertas piezas o las manipules de forma adecuada y queden dañadas.
  • Si tienes gran cantidad de cables dentro de la torre, puedes usar bridas para agruparlos y dejar un espacio despejado para que el aire circule de forma adecuada y no interfieran en los flujos. De esa forma, mejorará la refrigeración.
  • Usa siempre 2 ventiladores en la torre, uno que gire en un sentido para extraer el aire caliente de dentro, y otro que gire en el otro sentido para introducir aire fresco del exterior.
  • Cuando coloques tarjetas o unidades en las diferentes ranuras de expansión o bahías, evita ponerlas juntas en ranuras adyacentes. Si tienes espacio suficiente, deja un espacio entre dispositivos para que pueda circular mejor el aire entre ellos y que el calor disipado por uno no afecte al otro.
  • En cuanto a la memoria RAM, si tu CPU soporta ECC, entonces sería una buena idea usar esta memoria. Ni que decir tiene que si tiene dual-channel, o quad-channel, deberías separar los módulos RAM para aprovechar todos los canales al máximo si no tienes todos las ranuras DIMM ocupadas.
  • Elige una buena pasta térmica. No escatimes, son baratas, y el tipo de partículas metálicas que emplean pueden marcar una gran diferencia. Además, es importante cómo la aplicas para que se expanda de forma adecuada por toda la superficie del IHS.
  • Una vez montado no lo descuides, necesita mantenimiento. Sería apropiado, en función de la calidad del aire de la zona donde vivas, abrir el equipo y limpiar los sistemas de refrigeración para que funcionen mejor sin el polvo y pelusa que suelen acumular. Este polvo suele ser uno de los principales enemigos de la fiabilidad, ya que puede hacer que los sistemas de refrigeración se vuelvan menos eficientes, sobrecalentando los dispositivos a los que refrigeran y mermando su vida útil.

Di no al refurbished o reacondicionado

Si no tienes la certeza de que un componente reacondicionado está en perfectas condiciones, mejor evita los equipos de este tipo, así como los de segunda mano. A la larga podrían salir más caros. Comprar un equipo nuevo no es garantía de que te vaya a durar más que un reacondicionado, pero es más aconsejable.

Más cosas que puedes hacer por tus sistemas

Además de todo lo anterior, existen muchas más cosas que puedes hacer en el día a día por mejorar la fiabilidad y disponibilidad de tus sistemas:

  • Ciberseguridad: uno de los puntos más críticos con los que se pierde más tiempo, datos y dinero, está relacionado con la seguridad de los sistemas, y no importa lo bueno y cuidado que esté tu equipo. Por eso, invertir en auditorías de seguridad es una de las mejores inversiones para evitar posibles ataques cibernéticos (o al menos minimizar sus efectos). ¡Importantísimo! Además de eso, hay pequeñas cosas que puedes hacer también por ti mismo. A eso le puedes agregar algunas medidas adicionales típicas de una corporación, como seguridad perimetral (barreras, puertas, vigilancia,…) para restringir el acceso, fencing (aislar elementos de forma física, por ejemplo, desconectar webcam y micrófonos para evitar espionaje, separar particiones, retirar unidades de almacenamiento externas que no estés usando, trabajar offline sin conexión a Internet cuando se trabaje con datos críticos,…), etc.
  • SAI/UPS: si estás en zonas con una red eléctrica poco estable, donde los apagones son frecuentes, entonces adquirir un sistema de alimentación ininterrumpida podría evitar pérdida de trabajo y datos.  Con estos dispositivos, incluso si hay un corte de suministro eléctrico, podrás seguir trabajando durante un tiempo hasta que vuelva o guardar todo el trabajo de forma segura.
  • Usar sistemas tolerantes a fallos: existen algunos sistemas más tolerantes a fallos que otros. También podrías usar memorias ECC, soportadas por CPUs para HPC en el caso de Intel, y también en los modelos domésticos en caso de AMD, etc.
  • Dispón de un DRP (Disaster Recovery Plan): no solo es importante el plan de mantenimiento que cité en artículos previos. También un plan o forma de proceder cuando se produce un desastre. Por ejemplo, cuando se infectan los sistemas con algún tipo de malware, cuando ha ocurrido un fallo en medios de almacenamiento, etc. De esa forma se evita la traicionera improvisación y se puede dar una respuesta mucho más rápida para reponerse cuanto antes.
  • Ni overclocking ni undervolting. Esas prácticas hacen que el sistema sea considerablemente más inestable e incluso que su vida útil se vea seriamente comprometida.
  • Rechaza las nuevas tecnologías. Optar por tecnologías más maduros es otra forma de mejorar la fiabilidad. Espera a que esas nuevas tecnologías maduren y se compruebe su fiabilidad antes de adoptarlas, especialmente en entornos críticos. No solo por la propia tecnología en sí, el soporte (controladores) también podrían estar inmaduros y generar inestabilidad.
  • Evita escenarios Split-brain.

¿Y desde el punto de vista del diseñador/fabricante?

Los diseñadores de productos y fabricantes deberían realizar los análisis debidamente, además de dotar a sus empresas de buenos sistemas de control de calidad. Sin embargo, por ahorrar costes (y por la obsolescencia programada), eso no suele ser así.

  • Invertir en mejorar la fiabilidad durante etapas tempranas de diseño (p.e.: mejores herramientas EDA, simulaciones, tests,…). Algo que no se suele hacer por ignorancia o por falta de conocimiento sobre el cliente, sus prioridades, las condiciones de operación, o el costo real que les suponen las fallas.
  • La confiabilidad es complicada de medir, pero los fabricantes se deberían hacer una pregunta constantemente: ¿Es suficientemente bueno? Esto los podría impulsar a usar mejores materiales y piezas (p.e.: usar transistores y resistencias que soporten más corriente a la que se van a someter para tener un margen, redundancia de piezas críticas, mejor refrigeración, mejora en los materiales e impermeabilidad, protección ESD, soldaduras de calidad para evitar los Wiskers, y blindajes metálicos para evitar interferencias), una mejor QA, etc., si realmente quieren fidelizar clientes que buscan robustez.
  • Conocer bien los tiempos de inactividad no planificado y los costes del mantenimiento. Esto debería impulsar también a los productores a preocuparse por mejorar la mantenibilidad.
  • Pensar en las herramientas y facilitar las metodologías RCM y FMECA.
  • Usar un etiquetado o aportar información de la función, entorno y condiciones bajo las que debe operar de forma segura, la duración y la probabilidades de operación exitosa. Algo así como lo que ha introducido la UE.

Isaac

Apasionado de la computación y la tecnología en general. Siempre intentando desaprender para apreHender.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto:

Si continuas utilizando este sitio aceptas el uso de cookies. más información

Los ajustes de cookies de esta web están configurados para "permitir cookies" y así ofrecerte la mejor experiencia de navegación posible. Si sigues utilizando esta web sin cambiar tus ajustes de cookies o haces clic en "Aceptar" estarás dando tu consentimiento a esto.

Cerrar