En producción: consejos sobre fiabilidad Parte 1/6
En producción, los sistemas de alta disponibilidad, o en ciertos sistemas críticos, la fiabilidad es vital. Ámbitos en los que la productividad y la eficiencia son esenciales, y donde cualquier pequeño fallo puede representar un serio problema que podría llevar a pérdidas de datos, de tiempo, económicas, etc.
Pese a la importancia, no hay una enorme cantidad de artículos sobre ello. Por eso, creo que es necesario esta serie de artículos donde intentaré resumir todo lo posible el contenido que considero adecuado y la experiencia que he tenido durante algunos años que he trabajado como técnico.
ÍNDICE:
¿Qué es en producción y sistema de alta disponibilidad?
Cuando se habla de «producción«, se está refiriendo a un entorno donde un usuario final realizará un determinado trabajo.
Por otro lado está la alta disponibilidad, donde el sistema implementado debe permanecer el máximo tiempo operativo sin fallas.
Que un sistema sea estable y fiable es especialmente importante cuando se trata de una organización que gestiona datos valiosos o tareas más críticas. Por ejemplo, en entornos corporativos, administraciones públicas, centros de datos, etc.
Enemigos: fallas y obsolescencia programada
Los dos principales enemigos de la fiabilidad son las fallas que puedan tener los sistemas (hardware o software) y los propios fabricantes (obsolescencia programada). Lo mejor es que se puede trabajar para huir de ambos, aunque no eternamente. De hecho, es más fácil eludir el primero que el segundo…
Fallas
Los fallos o errores se dan cuando el producto deja de funcionar o comienza a funcionar de forma anómala. Las fallas pueden darse en todos los niveles, desde el hardware hasta el software, elementos auxiliares de los que dependa el equipo, etc. Pero todo ello afectando de igual modo a la productividad.
En resumen, la falla es todo aquello que evita que el sistema cumpla con su acometido. Y la forma de evitarlas pasa por adquirir productos lo más fiables posibles, y por un buen mantenimiento. Pese a eso, es complicado reducir las fallas a cero.
Obsolescencia programada
La obsolescencia programada no es tan aleatoria como una falla. Como su propio nombre indica, es algo meditado, programado para que falle tras un determinado tiempo de servicio. Una forma que tienen los fabricantes o desarrolladores de seguir vendiendo sus productos.
Los ingenieros y desarrolladores pueden usar numerosas estrategias para fomentar esta obsolescencia programada. Desde usar componentes de baja calidad, realizar cálculos para que una parte se deteriore taras una serie de usos, migrar hacia una tecnología que no tenga retrocompatibilidad y obligue al usuario a actualizarse, usar soluciones de refrigeración por debajo de lo recomendado, etc.
Es decir, fue una reacción ante la fabricación de productos de calidad y duraderos. Eso servía hace años para fidelizar clientes, pero algunos observaron que podían mejorar las ganancias empujando a los usuarios un tipo de compra mucho más compulsiva.
Pero para que eso calase en los clientes, las campañas de publicidad han conseguido modificar la forma de actuar de los clientes. Ahora se piensa en más corto plazo, con una sociedad mucho más ansiosa de estrenar y renovar, de tener siempre lo último cuando no es técnicamente necesario…
De esa forma tan sutil, pero eficaz, se ha hecho que se olvide la fiabilidad y durabilidad en pos de un estilo de usar y tirar. Todo esto con serias consecuencias asociadas.
Además, deberías conocer los distintos tipos de obsolescencia que se pueden distinguir:
- Prestacional: adquirir un producto que creías suficiente para tus necesidades, pero con el tiempo necesitar más. Por ejemplo, la capacidad de un medio de almacenamiento, software que cada vez necesita hardware más y más potente por falta de optimización, etc.
- Social: mediante el marketing y la manipulación te inocularán la necesidad. Steve Jobs era todo un gurú en este sentido. Sabía que primero se debía crear la necesidad, para luego satisfacerla vendiéndole el producto a las masas.
- Funcional: esta funcional, como la llamo, es algo más crítica y está más oculta. Básicamente te la podría resumir con una frase: «Aguanta hasta que termine la garantía». Muchos productos son diseñados para que no generen problemas durante los 2 primeros años, pero superado ese periodo de garantía, cuando el fabricante ya no asumirá los gastos de los problemas, comenzarán a fallar.
Por lo general, muchas marcas low-cost suelen dar mayor importancia a la obsolescencia programada funcional. Mientras que las marcas premium suelen enfocarse más en la social y prestacional, ya que la funcional podría ser asociada con mala calidad y dañar la imagen de empresa. Por tanto, elegir bien la marca puede reducir, en parte, la obsolescencia programada.
Marketing: el arte del engaño
Como ya he comentado en otras ocasiones, el departamento de marketing es el principal enemigo del consumidor. Ellos son los que tienen que promocionar el producto que le han dejado los ingenieros implicados en el proyecto. Pero créeme, el personal que allí trabaja no tiene poderes mágicos ni conocimientos técnicos para transformar un producto.
«Dime de qué presumes y te diré de qué careces«
El refranero español siempre tan certero…
Lo que sí tiene es la habilidad y el don de transformar un producto, con sus carencias y problemas, en el producto más perfecto que puedas imaginar:
- A lo que los ingenieros llaman fallas, ellos lo transforman en fortalezas.
- A lo que los ingenieros llaman carencias, ellos lo transforman en virtudes competitivas.
Por tanto, no caigas en la trampa si buscas productos realmente buenos. Analiza bien lo que te venden, pero no por boca de los ilusionistas del departamento de marketing del proveedor, sino por boca de los usuarios que lo han probado o los especialistas que dan su opinión.
Algunas fórmulas y cálculos
Ahora bien, tanto para los sistemas de alta disponibilidad, como para los sistemas usados en producción, la fiabilidad es vital. Por ello, surgen una serie de KPIs (Key Performance Indicator), o indicadores clave de desempeño, y métricas que pueden medir cuán fiable es un sistema:
En un sistema MP de n procesadores, si uno de ellos tiene un problema (n-1), el sistema sigue funcionando como si nada. Por eso la redundancia ha aumentado la disponibilidad de estas máquinas.
- MTTF (Mean Time To Failure): es el tiempo medio para fallos. O lo que es lo mismo, el tiempo que un sistema es capaz de trabajar sin interrupciones hasta tener un fallo. Se calcula dividiendo el tiempo total de funcionamiento de las unidades que componen el sistema, entre el número de unidades. Por ejemplo, si un equipo se compone de 2 partes, o subsistemas, y uno de ellos es capaz de funcionar 5000 horas sin fallar, y el otro durante 10.000 horas, entonces el MTTF sería de 12.500 horas.
- MTBF (Mean Time Between Failure): tiempo medio entre dos fallos consecutivos. Es lo que se conoce como confiabilidad o fiabilidad. Se calcula dividiendo el tiempo total de funcionamiento entre el número de fallas. También puede calcularse sumando MTTF + MTTR. Por ejemplo, si un sistema funciona durante 18.000 horas y durante ese periodo queda fuera de servicio por 3 fallas, entonces sería de 6.000 horas.
- MTTR (Mean Time To Repair): tiempo medio para reparar un sistema. Es decir, es la mantenibilidad de un sistema. Mientras más complejo es el sistema, mayor suele ser el tiempo de mantenimiento. Se calcula dividiendo el tiempo total de inactividad (durante el que se está reparando) y el número de fallas. Por ejemplo, si un equipo permanece 3 horas fuera de servicio mientras es reparado, y se dan 2 fallas, el MTTR sería de 3/2=1.5.
- Disponibilidad: es la métrica que mide el tiempo que un sistema permanece disponible, es decir, operativo. Se calcula dividiendo MTBF entre la suma de MTBF+MTTR. Por ejemplo, si un equipo estuviera activo 8400 horas de las 8760 que debería mantenerse activo, entonces se tiene 8400/8760=0,9589. Si se multiplica por 100 se obtendrá el tanto por ciento (95,89% del tiempo disponible).
- Vida útil: es el tiempo que un sistema dura hasta que se deteriora de forma irreparable. Esto es importante para conocer hasta cuándo se puede estirar el uso de un sistema antes de sustituirlo. Además, podría alterar la política de actualización de los equipos, haciendo que la frecuencia con la que se cambian sea mayor o menor.
Curva de la bañera
Existe una gráfica que analiza los fallos durante el periodo de vida útil de los sistemas y maquinas de cualquier tipo, también los electrónicos. Y se llama curva de la bañera porque tiene esa forma en U. En el eje horizontal (X) se representa el tiempo que dura el dispositivo y en el eje vertical (Y) la cantidad de fallos.
El resultado es esa curva donde se puede apreciar que la mayoría de los fallos se suelen producir siempre al comienzo (fallos iniciales) y durante las etapas finales de su vida útil (fallos de desgaste). Mientras que en la meseta central hay una gran caída de fallos (fallos normales). Tener esto en cuenta es importante a la hora de tener un plan de actuación, ya que sabrás en las dos etapas en las que te puedes encontrar con mayor número de problemas.
- Fallos iniciales: son aquellos debidos a problemas de fábrica, fallos de diseño, productos defectuosos, desconocimiento de uso por parte del usuario, etc.
- Fallos normales: son los habituales y constantes problemas que se pueden presentar a lo largo de la vida de un producto. Son inherentes al equipo y se pueden deber, en gran medida, a causas externas (accidentes, mal uso, condiciones inadecuadas,…).
- Fallos de desgaste: son más numerosos, como los iniciales, solo que se deben al desgaste por el uso natural del equipo y el envejecimiento de los materiales.
Hecha esta introducción, en la siguiente parte pasaremos a cuestiones algo más prácticas…
Pingback: Guía completa: sistemas de refrigeración para electrónica |