La inferencia estadística en la investigación turística
The statistical inference in the tourist investigation.
Alfredo Ascanio,Ph.D
Universidad Simón Bolívar
Caracas-Venezuela
Resumen: el objetivo de este artículo es demostrar que los hallazgos de los estadígrafos de la estadística descriptiva no se pueden trasladar intuitivamente a los parámetros de la población o del universo sin que antes se realicen pruebas o tests de significación estadística.
Palabras claves: estadística descriptiva, estadística evaluativa, test de hipótesis.
Abstract: the objective of this article is to demonstrate that the findings of parameters of the descriptive statistic cannot be transferred very intuitively to the population findings or of the universe, without before tests of statistical meaning are made.
Keywords: descriptive statistic, statistical evaluative, test of hypothesis
INTRODUCCION
El investigador en el área del turismo debe ir más allá de la simple descripción de sus hallazgos; es deseable hacer enunciados formulando una hipótesis nula que debe luego ser comprobada o no y contestar a la pregunta clave: ¿ es digna de confianza la aparente diferencia que se ha encontrado en el trabajo de investigación? Para contestar a esta pregunta sólo se puede lograr aplicando los criterios básicos de la estadística evaluativo o inferencial (Pin,1964; ;Mentha,1964; Suits,1966; Ibarra,2006).
Es imposible trabajar con los dato de una población o universo en su totalidad y además los parámetros poblacionales son raramente conocidos, entonces el investigador se ve en la necesidad de trabajar con una muestra representativa del universo; pero al extraer muestras de una población, los parámetros que se obtienen (promedios, varianza, correlaciones) no necesariamente representan los parámetros de la población.
La única manera de lograr que la muestra sea representativa del universo es utilizando el muestreo aleatorio simple de manera que cada muestra de un tamaño dado tenga exactamente la misma probabilidad de ser elegida y luego calcular la probabilidad de que el valor de cualquiera de esos parámetros no rebase los límites establecidos que se obtiene en tablas numéricas ad-hoc. ( Sierra Bravo, 1982; Briones, 1982).
Como los investigadores están interesados en demostrar que existen determinadas relaciones entre variables, ello se debe hacer respecto a una población o universo. Como la población es muy grande, es necesario trabajar con las muestras, pero los parámetros que se obtengan de allí sólo se pueden trasladar a la población, aplicando la estadística evaluativo para conocer la significación estadística o prueba de hipótesis. Es decir, sobre la base de algunas observaciones, debemos reconstruir el fenómeno en su totalidad y ello nos lleva entonces a los test estadísticos para saber si la reconstrucción es significativa o no (si es exacta o no lo es).
LA SIGNIFICACION ESTADISTICA
El término significación tiene una gran importancia en la estadística evaluativo y señala que la diferencia entre parámetros no puede deberse al azar, por ejemplo si admitimos que una probabilidad superior al 10% se debe al azar entonces no hay significación y tenemos que rechazar la hipótesis nula y si la probabilidad se ubica entre 10% y 5% es posible que exista significación estadística, aunque todavía podemos admitir que la hipótesis nula es dudosa, ya que para que exista significación y la hipótesis nula se puede rechazar sólo se lograría si la probabilidad aparece entre el 5% y el 1%, claro si es menos del 1% no hay duda que existe una muy alta significación y se admitiría rigurosamente que existen diferencias entre los parámetros analizados.
Existe una cómoda convención que admite trabajar con un nivel de significación del 5%, pues es válido para la mayoría de los hallazgos en la investigación turística. Ahora bien, como toda probabilidad viene expresada en función del número de grados de libertad el cual tiene en cuenta la importancia de las observaciones o datos y funciona siempre como un coeficiente de ponderación, así obtenemos el número mínimo de datos que es necesario conocer para reconstruir los parámetros y en la práctica para un dato determinado el número de grados de libertad es igual al número de datos menos uno.
Los parámetros más utilizados en el cálculo de los tests de significación son: la media, la desviación típica , la varianza y el coeficiente de correlación simple.
Muchas veces el investigador después de correr un cuestionario a una muestra de turistas para saber, por ejemplo, el dato de la estadía media para un segmento y la estadía media para otro segmento; con la estadística descriptiva el investigador obtiene esos resultado, pero lo que interesa es saber si ese valor promedio obtenido de la muestra es un dato real o ficticio, y si esa media se puede utilizar realmente para fijar una determinada política turística promocional. Si el dato obtenido es digamos 10 noches, ese número 10 puede ser la media de: 9+ 10+11, pero puede ser también un valor promedio de la serie : 2 + 8+ 20; entonces: ¿se puede considerar que ese valor medio de 10 es representativo de las dos series anotadas arriba ?; lo anterior sólo lo podemos saber al aplicar un test de significación.
EJEMPLOS PARA ILUSTRAR
Supongamos que un investigador entrevista a dos mercados de turistas para evaluar el gasto medio diario probable sólo de alimentación en hoteles de 5 estrellas de dos muestras segmentadas (turistas de USA entrevistados en el hotel y turistas de USA entrevistados en el Aeropuerto), y que estaría interesado, como condición exigida, que el gasto promedio día sea superior de 27 dólares para poder tomar alguna decisión promocional para ese mercado. Para comprobarlo en un número pequeño de turistas obtiene 6 datos en cada lugar de la entrevista en A y en B, como sigue:
Tabla 1. Gasto promedio diario en alimentación según dos entrevistas en lugares diferentes.
Número (datos) A (USA) B (USA) A – B = x 1 31 29 + 2 2 27 27 0 3 29 25 + 4 4 30 29 + 1 5 26 28 - 2 6 28 24 + 4 Totales 171 162 + 9 Promedio 28,5 27,0 + 1,5
Se observa que el gasto medio día obtenido para el turista de USA (en A) es de 28,5, mientras que el turista de USA ( en B) arroja un valor igual a 27. Resulta, que desde el punto de vista de la estadística descriptiva el dato de USA entrevistado en el hotel sería el mejor y el dato del turista turista entrevistado en el Aeropuerto no cumple la condición exigida. Pero la pregunta importante es: ¿Se debe admitir que los resultados obtenidos de A y de B son diferentes, como parece indican los hallazgos, o son idénticos, tomando en consideración el universo?
La única manera de dar una respuesta a esta importante pregunta es someter esos hallazgos a un test de significación adecuado. La hipótesis nula señalaría que: el gasto diario en A y en B son idénticos, o sea que la diferencia entre las entrevistas en A y en B no difiere de cero más que por razones accidentales debido al azar de muestreo.
Así la media del conjunto e igual a + 1,5, pero necesitamos dos datos más para hacer un test como son, la desviación estándar y el número de grados de libertad, en este caso : 6- 1 = 5
La desviación estándar o típica de todas las observaciones se calcula con la fórmula:
También la desviación estándar se puede estimar por el método simplificado; es decir, con la raíz cuadrada de la sumatoria al cuadrado de todas las diferencias encontradas en la última columna del cuadro anterior restado de la sumatoria de todas las diferencias al cuadrado entre 6 datos, y todo entre los grados de libertad igual a 6-1 = 5, como sigue:
Ahora tenemos que hacer un test de significación con el test “t” de Student y con su fórmula, o sea:
t = 1,5 / 0,959 = 1,564
Recordemos que el número de grados de libertad es 6 menos 1 = 5. Ahora vamos a buscar en la tabla “t” el valor crítico con 5 grados de libertad y obtener el porcentaje de probabilidad para alcanzar o pasar la prueba con el valor encontrado en la tabla igual a :
t=1,564, el cual arroja la probabilidad de 10% a 20%, pero no la probabilidad del 5% que era nuestro criterios de aceptabilidad o admitido como nivel de significación.
Así pues el investigador no puede señalar que los resultados entre los dos segmentos de mercado entrevistados en los dos lugares sea diferente, o sea que el resultado de su entrevista en A es superior al resultado de su entrevista en B. El resultado real para la población en su conjunto es que es indiferente para una política promocional relativo al gasto turístico considerar el sitio donde se obtenga la información, pues la diferencias que aparecieron en las muestras pudieron ser accidentales.
Pero qué hubiese pasado si al realizar la encuesta con otras dos muestras obtenemos los hallazgos como aparecen en la tabla 2:
Tabla 2. Gasto promedio diario en alimentación según entrevista en el hotel y en aeropuerto.
Número (datos) A(USA) B (USA) A – B = x 1 21 17 + 4 2 20 18 + 2 3 20 18 + 2 4 22 16 + 6 5 16 14 + 2 6 21 13 + 8 Totales 120 96 + 24 Promedio 20 16 + 4
Al hallar la desviación típica o estándar de los aumentos del gasto diario de los dos segmentos de turistas, obtenemos:
s = 2,530
t = 4/2,53/2,45
t = 4/ 1,033 = 3,872
El valor calculado de “t” es entonces 3,872, y este dato con el grado de libertad igual a 6 – 1 = 5, en la tabla “t” nos muestra que existe un 2% de probabilidad de que se logre la diferencia entre los gastos de los dos segmentos de turistas según el lugar de la entrevista.
El investigador puede entonces concluir que el gasto medio diario del turista que procede de USA y que es entrevistado en el hotel, es superior al que es entrevistado en el aeropuerto, y entonces la política promocional se debe basar en los hallazgos encontrados en los hoteles como criterio básico y prioritario.
Con esta introducción lo que queremos dejar bien sentado es la importancia de comprobar si los datos de la estadística descriptiva obtenidos de muestras son o no son significativos ( se pueden generalizar a la población) para poder tomar decisiones sin correr los riesgos innecesarios.
Pero también muchas veces tenemos que comparar datos de segmentos de turistas que difieren de su lugar de origen para saber que segmento es superior uno del otro en base al criterio del gasto diario medio. Tomemos el ejemplo que nos permita comparar las propiedades de ese gasto medio día, para dos tipos de turistas: el que proviene de USA (A) y el que proviene de Europa (B), como aparece en la tabla 3 siguiente:
Tabla 3. Gasto promedio diario del turista norteamericano (A) y del turista europeo (B)
Para A= x Para B = z x al cuadrado z al cuadrado 17 17 289 289 19 18 361 324 20 18 400 324 24 16 576 256 18 14 324 196 22 13 484 169 Total 120 96 2.434 1.558 Promedio 20 16 - -
Hemos visto que los totales son : 120, 96, 2434 y 1558 y los valores medios del gasto día es de 20 y 16.
Para determinar la estimación de la desviación típica de las dos muestras de datos, lo haremos de esta manera: 1) estimamos la varianza con el método simplificado, que nos arroja el valor de 5,6 y luego la desviación típica obteniendo la raíz de 5,6, como aparece en seguida:
s = 2,366
Ahora bien, el valor calculado de “t” es igual a:
t = 1.691 * 1.732
t = 2,929
En este caso el número de grado de libertad es igual a = 6 + 6 – 2 = 10
Entonces para 10 grados de libertad y un nivel de significación del 5% en la tabla “t”
obtenemos el valor crítico o teórico de 2,228. Como en nuestro calculo hemos obtenido el valor de “t” igual a 2,929, o sea mayor que el dato de la tabla, entonces se debe concluir que la diferencia entre los dos valores medios es significativo, pues sólo existe el 2% de probabilidad de que las dos muestras pertenezcan a la misma población; entonces el segmento de turistas A (USA) es superior al segmento del turista B (Europa) en cuanto a las propiedades del gasto medio día.
OTRAS PRUEBAS DE HIPOTESIS
La comparación de varianzas
En la investigación turística a veces se necesita comparar los parámetros de dispersión como por ejemplo la varianza, o sea la desviación típica elevada al cuadrado. Dos series de muestras pueden presentar dispersiones y entonces se necesita conocer si son idénticas o diferentes. La prueba adecuada para realizar esto es el test de Fischer y además con el conociendo del grado de libertad par cada muestra (número de datos menos la unidad). La tabla de Fischer establece los valores para diferentes niveles de significación y para diversos grados de libertad.
Supongamos que existen dos regiones turísticas con diferentes ventas de un mismo producto turístico de aventura y que según los datos recopilados para el primer semestre del año y sus variaciones son como se señala de inmediato. Lo que se desea saber es si la variabilidad de estas ventas es la misma en las dos regiones o si es más mayor en la Región A que en la Región B. Para simplificar el cálculo pongamos números reducidos para calcular con mayor facilidad las varianzas de cada región como aparece en la tabla 4:
Tabla 4. Venta de espacios lúdicos de aventura en dos regiones diferentes
Mes Región A Región B Región A al cuadrado Región B al cuadrado Enero 30 42 900 1.764 Febrero 1 8 1 64 Marzo 34 40 1.156 1.600 Abril 17 36 289 1.296 Mayo 45 51 2.025 2.601 Junio 22 43 484 1.849 Total 149 220 4.855 9.174
s al cuadrado para A = 4.855 – 149 al cuadrado / 6 y entre 5 = 1155 / 5 = 231
s al cuadrado para B = 9.174 – 220 al cuadrado / 6 y entre 5 = 1107 / 5 = 221
La relación de F se establece comparando los hallazgos del resultado mayor de “s” entre el menor, es decir : F = 231 / 221 = 1,045 y recordemos que el grado de libertad es 6-1=5 para las dos muestras. Si ahora vamos a la tabla “F” de Fischer para 5 grados de libertad, allí encontramos esos valores según sus porcentajes de probabilidad de 0,20; 0,10; 0,05; 0,01; 0,001 secuencialmente así : 2,2; 3,5; 5,1; 11,0; y 29,8.
El valor calculado de F fue de 1,045, el cual corresponde según la Tabla de Fischer a un nivel de significación superior al 20% porque es menor que 2,2; entonces se infiere que no hay diferencias significativas entre las dos varianzas y que las variaciones de ventas entre las dos regiones se pueden considerar como las mismas en el universo total.
La comparación global de frecuencias
Aquí el investigador lo que desea conocer es si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o si por el contrario estas dos frecuencias presentan una diferencia significativa para un nivel de significación dado.
El test para estos cálculos se denomina Chi cuadrado y es muy utilizado en estudios de mercado en el campo del turismo y en especial al determinar preferencias de los turistas por algún lugar determinado. Los datos se presentan en tablas de 1 x 2 o en tablas de
2 x 2 o incluso en tablas de 2 x N veces. Veamos un ejemplo simple para ilustrar este test.
Una estadística de problemas acontecidos a los turistas en dos alojamientos hoteleros (A y B) muestran que de 102 problemas, 59 problemas han tenido lugar en el Hotel A y 43 en el Hotel B. La hipótesis nula del investigador es que no existe relación entre el número de problemas por el hecho de que ocurran en el hotel A o en hotel B.
Lo que sigue de inmediato es saber si esa hipótesis nula carece de fundamento y se puede rechazar. Este test se hace con la prueba Chi Cuadrado. Lo primero que parece lógico es que si no existe relación entre el número de problemas y los hoteles, deberían repartirse por igual los problemas entre los dos hoteles, digamos unas frecuencias esperadas o teórica igual a : 51 y 51 = 102 problemas. Veamos las frecuencias observadas (a y b) y las frecuencias esperadas (a prima y b prima) :
a = 59 b = 43
a prima = 51 b prima = 51
Con estos datos podemos estimar la prueba de Chi Cuadrado:
X2 = [ (a - a prima ) – 0,5 ] al cuadrado / a prima + [ (b - b prima) – 0,50] al cuadrado / b prima.
X2 = [ (59 – 51 ) – 0,5 ] al cuadrado / 51 + [ ( 43 – 51) - 0,5 ] al cuadrado / 51
X2 = 7,5 al cuadrado / 51 + 7,5 al cuadrado / 51 = 1,103 + 1,103 = 2,206
Los grados de libertad es igual a 2 lugares menos 1 = 1
La tabla teórica Chi cuadrado, para diferentes niveles de significación y diversos grados de libertad, nos permite interceptar para 1 grado de libertad y para un nivel de significación del 5% y entonces encontrar el valor crítico de 3,841. Dado que en nuestro estimado el valor encontrado fue de 2,206, o sea menor que el dato crítico, podemos admitir que la hipótesis nula es correcta, o sea: que no existe razón para suponer que se produzcan más problemas en el hotel A que en el hotel B, si se conocieran los parámetros de la población.
La comparación entre coeficientes de correlación lineal
La correlación lineal entre dos variables se puede estimar recurriendo a las sugerencias de Student y Fischer cuando afirmaron que : “si el número de pares de datos es pequeño (menos de 20 pares de datos), se puede determinar la significación de la correlación lineal calculando el valor del índice “t”, según la siguiente fórmula : t = r / Raíz de 1 menos r al cuadrado x Raíz del número de grados de libertad.” En este caso el grado de libertad es igual al número de pares de datos que se comparan menos dos.
Para ilustrar este estimado supongamos lo siguiente: el gerente de marketing de un hotel desea conocer si existe una relación directa entre los gastos anuales de publicidad y las pernoctaciones vendidas anualmente. Estos datos son como siguen en unidades reducidas para facilitar el cálculo:
Pernoctaciones vendidas al año : 32; 54; 95 ; 15; 164 ; 180
Gastos de publicidad: 8; 22; 17; 27; 36 ; 33
Para determinar si el aumento de los gastos de publicidad provoca un aumento proporcional de las ventas, vamos a calcular el coeficiente de correlación lineal “r” como aparece en la siguiente tabla 5:
Tabla 5. Ventas anuales y gastos anuales publicitarios
Ventas (x) Publicidad (y) x – x promedio y – y promedio (x–x promedio al cuadrado) (y – y promedio al cuadrado) (x – x promedio) ( y – y promedio) 32 8 -81,7 -15,8 6.674,9 9,6 + 1.290.0 54 22 -59,7 -1,8 3.564,1 3,2 +107,5 95 17 -18,7 -6,8 349,7 46,2 -122,9 157 27 -43,3 +3,2 1.874,9 10,2 +138,8 164 36 +50,3 +12,2 2.530,1 14,8 +613,7 180 33 +63,3 +9,2 4.395,7 84,6 +610,0 682 143 19.389,4 542,6 2.883,8 113,7 23,8
Los valores promedios fueron : 682 / 6 = 113,7 y 143 / 6 = 23,8
Ahora con los valores de la tabla podemos calcular el coeficiente de correlación lineal “r” :
r = Sumatoria de los valores elevados al cuadrado / Raíz de la multiplicación de los dos valores elevados
r = 2.883,8 / Raíz de 19389,4 x 542,6
r = 2883,8 / 3244 = 0,889
Según la estadística descriptiva el coeficiente de correlación lineal es elevado (89%), e incluso el coeficiente de determinación es aceptable o sea: igual a : 0,889 x 0,889 = 0,79 (79%). Pero no basta con este conocimiento, es necesario determinar la significación estadística de estos parámetros a nivel poblacional y según el número de grados de libertad que en este caso es igual a: 6 – 2 = 4.
Si observamos en la tabla el test crítico del coeficiente de correlación para 4 grados de libertad, veremos que corresponde a: 0,889, y comprobaremos que se ubica entre el 1% y el 2% de probabilidad, es decir mucho más bajo que el nivel de significado aceptable del 5% y por ello podemos inferir que la correlación positiva entre los gastos de publicidad y las ventas es estadísticamente significativa, o sea que las ventas crecen proporcionalmente a los gastos de publicidad en la población como un todo.
Siempre se ha señalado que la estadística como herramienta analítica es fundamental para sacar mejor partido de los hechos observados. La estadística nos intenta decir cosas para comprobar hipótesis. Del conocimiento que podemos tener al relacionar datos cuantitativos bien sea con una recta de regresión para conocer la tendencia de un fenómeno, o bien las relaciones en una tabla de contingencia, no nos queda otra posibilidad para disminuir la incertidumbre al utilizar las muestras y comprobar o no nuestra hipótesis, que recurrir a los tests de significación, ante la imposibilidad manifiesta de analizar la población o el universo.
Recordemos que la evolución y la correlación de datos no nos ponen de manifiesto las causas que le dieron origen bien sea económica o psicológica (Pin, 1962,p.159).
La tendencia del turismo receptivo
Es importante analizar las cuentas de llegadas de visitantes internacionales con varios modelos a los fines de obtener un valor promedio que es muy útil para posteriormente desde esa base hacer una adecuada valoración.
En seguida veremos que si la proyección lineal se logra aplicando logaritmos o bien recurriendo a una proyección no logarítmica, siempre el promedio obtenido puede ser muy parecido con un método o con otro.
Si la proyección se hace por ejemplo con una serie de 20 años, que es lo recomendable, y utilizando los logaritmos, obtendremos una tasa de incremento interanual muy útil con fines estadísticos.(Ascanio,1996).
Los resultados de la tendencia serán diferentes pues ello depende del número de años seleccionados y de sus valores. Cuando utilizamos la regresión entre los años aplicando logaritmos, veremos, como aparece en el cuadro No. 1 siguiente, que los datos de la tendencia pueden ser hasta un 50% más elevados o incluso apenas un 13 % ó 7% en más o en menos, aunque siempre la tendencia es que aparezcan valores mayores.
Tabla 6.Tendencia lineal del turismo en Venezuela durante 20 años.
AÑO y Log y x x2 x Log y tendencia Log de tendencia 1 117 2,0682 -9 81 --18,6138 178 2,2504 2 144 2,1584 -8 64 --17,2672 188 2,2742 3 171 2,2329 -7 49 --15,6303 198 2,2967 4 285 2,4548 -6 36 --14,7288 209 2,3201 5 425 2,6284 -5 25 --13.1420 221 2,3444 6 436 2,6395 -4 16 --10,5580 233 2,3674 7 535 2,7284 -3 9 -8,1852 246 2,3909 8 653 2,8149 -2 4 -5,6298 259 2,4133 9 256 2,4082 -1 1 -2,4082 274 2,4378 10 270 2,4314 0 0 0 289 2,4609 11 200 2,3010 1 1 2,3010 305 2,4843 12 213 2,3284 2 4 4.6568 322 2,5079 13 200 2,3010 3 9 6,9030 340 2,5315 14 233 2,3674 4 16 9,4696 359 2,5551 15 268 2,4281 5 25 12,1405 379 2,5786 16 310 2,4914 6 36 14,9484 399 2,6009 17 337 2,5276 7 49 17,6932 422 2,6253 18 372 2,5705 8 64 20,5640 445 2,6484 19 415 2,6180 9 81 23.5620 470 2,6721 20 525 2,7202 10 100 27,2020 496 2,6955 49,2187 670 15,7394 Fuente: datos oficiales y su tendencia.
49,2187 / 20 = 2,460935
15,7394 / 670 = 0,02349
Log y = 2,460935 + 0,02349
y = (289) (1,0555) al cuadrado
y = (289) (1,11408 )
y = 322
Este valor promedio, igual a 322, crece más o menos al 6% al año, según las 20 cifras analizadas. Los valores de la tendencia se acercan bastante bien a los datos originales.
Ahora bien, la función que mejor representó la evolución del turismo receptivo en Venezuela desde 1971 a 1991 y con un modelo de regresión múltiple fue la siguiente (Ascanio,1996,p.143) :
NT = - 342.417,5 + 2.316,89 CR (Bs./$) + 3.921,43 PIB + 0,7998 NT -1 + Ut
R al cuadrado = 93,1 ; DW = 2,39 ; h = 1,11 y F = 76,4
En donde:
NT = número de turistas internacionales llegados a Venezuela en el año “t”
NT menos 1 = número de turistas internacionales llegados al país en el año anterior.
PIB = Índice del PIB real de los países industrializados en el año t
CR (Bs./$) = tipo de cambio real Bs,/$ en el año “t”.
Ut = término de perturbación en el año “t”
La regresión lineal no logarítmica desde el año uno con 117 mil visitantes hasta el año 16 con 310 mil visitantes es como sigue:
y = 1.03109 x^3 + -30.3049 x^2 + 253.299x + -216.712
Con los siguiente valores de tendencia: 7,31; 176,9; 298,3; 377,6; 421,0; 434,8; 425,1; 398,8; 359,9; 316,9; 275,1; 240,7; 219,9; 219,0; 244,1; 301,3.
Con un valor promedio de 295 mil visitantes por año.
La ecuación lineal desde el año 5 con 425 mil visitantes hasta el año 20 con 525 mil visitantes es como sigue:
y = 0.431511 x^3 + -6.06132 x^2 + -11.2538x + 516.563
Con los siguientes valores de tendencia : 499,7 ; 473,3 ; 439,9; 402,2 ; 362,7; 324,0; 288,8 ; 259,5 ; 233,7; 254,3 ; 293,9; 355,1 ; 440,3; 552,3.
Con un valor promedio de 370 mil visitantes al año.
El promedio anual de las tres estimaciones es de 329 mil visitantes al año.
Se puede observar en el cuadro No. 7 siguiente que la relación entre valores elevados, medios y bajos, según el número de años utilizados arroja una asociación positiva, pues sus valores medios son muy parecidos.
Tabla 7. Relación entre promedio de visitantes y años de proyección
Promedio Visitantes Número años elevado Número años bajo Elevado 370 Media 322 Baja 295 TOTAL 322 665
El coeficiente Q es como sigue:
Q = 665 x 322 – 370 – 322 / 322 x 370 + 370 x 322
Q = 214.130 - 48 / 222.824
Q = 0,96
El resultado indica una asociación importante entre las dos variables y la probabilidad de acertar para predecir una variable conociendo la otra.
En este caso del turismo receptivo hacia Venezuela lo podemos establecer con mayor rigurosidad en base al promedio anual de visitantes de las tres estimaciones que fue de más o menos 329 visitante al año, con un crecimiento interanual del 6%.
Esto lo que nos indica es que e posible que para el año 2.010 Venezuela sólo podrá captar entre 550 a 600 turistas internacionales y no más que eso, siempre que se siga ignorando una política agresiva de marketing y se deje sólo en libertad lo que pueda pasar con el turismo, sin hacer nada para promoverlo.
Ahora bien si la recta de regresión se realiza con el método de los mínimos cuadrados, como aparece en Cuadro No.3 siguiente, los datos reales y los estimados presentan una diferencia que puede ser mínima o mayor, dependiendo del comportamiento de la nube de puntos que se observaría en el cuadrante.
Tabla 8.Datos para estimar la recta de regresión lineal entre x e y
x y y prima y prima por x y prima (x) 1 117 - 153 -153 por 1 - 153 2 144 - 126 - 126 por 2 - 252 3 171 - 99 - 99 por 3 - 297 4 285 + 15 + 15 por 4 + 60 5 425 + 155 + 155 por 5 + 775 6 436 + 166 + 166 por 6 + 996 7 535 + 265 + 265 por 7 + 1.855 8 653 + 383 + 383 por 8 + 3.064 9 256 - 14 - 14 por 9 - 126 10 270 0 0 0 11 200 - 70 - 70 por 11 - 770 12 213 - 57 - 57 por 12 - 684 13 200 - 70 - 70 por 13 - 910 14 233 - 37 - 37 por 14 - 518 15 268 - 2 - 2 por 15 - 30 16 310 + 40 + 40 por 16 + 640 17 337 + 67 + 67 por 17 + 1.139 18 372 + 102 + 102 por 18 + 1.836 19 415 + 145 + 145 por 19 + 2.755 20 525 + 255 + 255 por 20 + 5.100 + 965 +14.480
Con los datos de la tabla 8 haremos los siguientes cálculos prácticos :
n = 20
A = 21 / 2 =10,5
B = 20 ( 20 al cuadrado menos 1) / 12 = 20 x 399 / 12 = 665
A por sumatoria de y prima = 10,5 x 965 = 10.132,5
Sumatoria de x por y prima menos 10.132,5 = 14.480 – 10.132,5 = 4.347,5
b = 4.347,5 / 665 = 6,54
x media = A = 10,5
y media = 270 + 965 / 20 = 270 + 48,25 = 318,25
a = 318,25 + ( 6,54 x 10,5 ) = 386,92
Entonces la ecuación de la recta de regresión lineal es :
y = 386,92 + 6,54 (x)
Con esta recta de regresión para el año 20 el número de visitantes internacionales estimados sería igual a : y = 386,92 + 6,54 (20) = 517,72
El resultado nos indica que la tendencia es 7.000 visitantes menos que el dato real, o sea : 1,33% menor. Esta diferencia se debe al comportamiento de la nube de punto y debido al ajuste de la curva de regresión con el método de los mínimos cuadrados.
Vamos a estimar el coeficiente de correlación “r” a los fines de conocer su significación.
Tabla 9. Llegadas del turismo receptivo en 20 años
Años
(x) Llegadas
(y) x – x medio y – y medio x – x medio
al cuadrado y – y medio al cuadrado (x – x medio) (y – y medio) 1 117 -9,5 -202,25 + 90,25 40.905,1 +1921,4 2 144 -8,5 -175,25 + 72,25 30.712,6 +1489,6 3 171 -7,5 -148,25 + 56,25 21.978.1 +1111,9 4 285 -6,5 -34,25 + 42,25 1.173,1 +222,6 5 425 -5,5 +105,75 + 30,25 11.183,1 +581,6 6 436 -4,5 +116,75 + 20,25 13.630.6 +525,4 7 535 -3,5 +215,75 + 12,25 46.548,1 +755,1 8 653 -2,5 +333,75 + 6,25 111.389,1 +834,4 9 256 -1,5 -63,25 + 2,25 4.000,6 +94,9 10 270 -0,5 -49,25 + 0,25 2.425.6 +24,6 11 200 + 0,5 -119,25 + 0,25 14.220.6 +59,6 12 213 + 1,5 -106,25 + 2,25 11.289.1 +159,4 13 200 + 2,5 -119,25 + 6,25 14.220,6 +298,1 14 253 + 3,5 -66,25 + 12,25 4.389,1 +231,9 15 268 + 4,5 -51,25 + 20,25 2.626,6 +230,6 16 310 + 5,5 -9,25 + 30,25 85,6 +50,9 17 337 + 6,5 +17,75 + 42,25 315.6 +115,4 18 372 + 7,5 +52,75 + 56,25 2.782,6 +395,6 19 415 + 8,5 +95,35 + 72,25 9.091.6 +810,5 20 525 + 9,5 +205,75 + 90,25 42.744,6 +1954,6 210 6.385 10,5 319,25
El coeficiente de correlación lineal “r”, es igual a :
r = 1954,6 / raíz de 90,25 x 42.744,6
r = 1954,8 / 1.964,1
r = 99,5
Para determinar la significación de este coeficiente “r” de correlación, calculamos el número de grados de libertad, es decir, el número de pares de datos menos dos : n = 20 - 2 = 18.
En la tabla de los valores del coeficiente “r” para 18 grados de libertad, la significación es mayor a 0,001 (0,1 % ). Esta relación entre variables es muy positiva, es decir los años crecen proporcionalmente al desarrollo de los datos de la llegada de turistas.
El gasto medio del turista : otro dato relevante
Cuando realizamos una encuesta para saber el gasto en millones de dólares de 5 regiones turísticas durante el IV trimestre del año 2008, encontramos estas respuestas:
Tabla 10. Gasto en el IV trimestre del 2.008-Turismo receptivo
Regiones Gasto en millones de US$ Número de visitantes Gasto medio por visitante en US$ Europa 66,5 42.624 1.560 América del Sur 32,8 22.512 1.457 América del Norte 49,8 38.271 1.301 Centro América y el Caribe 18,7 12.907 1.449 Otras regiones 8,2 3.302 2.483 TOTAL 176,0 119.616 1.471
Estos datos de una muestra tomada al azar nos indican que hemos encontrado 42.624 visitantes europeos con un gasto medio por visitante igual a US$ 1.560 y 38.271 visitantes de América del Norte con un gasto medio por visitante igual a US$ 1.301.
La pregunta básica en este momento es : ¿Qué probabilidad tenemos de equivocarnos al afirmar que, en la población, los turistas Europeos son más numerosos y tienen un gasto medio mayor que los visitantes procedentes de América del Norte ?
Una primera aproximación para conocer esa probabilidad es utilizar un ábaco ya diseñado y ad-hoc. Lo primero que haremos es obtener las diferencias en más o en menos de esas dos regiones que deseamos comparar:
43 + 38 = 81
43 – 38 = 5
Ahora interceptamos estos valores en el ábaco para conseguir el tanto por ciento de la probabilidad de equivocarnos, considerando la significación de visitantes procedentes de Europa más los de América del Norte; y los visitantes de Europa menos América del Norte; es decir buscamos la intersección vertical de 81 con la horizontal de 5 y nos arroja 50% a 60% de posibilidades de equivocarnos.
En efecto, tenemos casi una posibilidad por cada dos casos de equivocarnos al afirmar que los visitantes europeos son más numerosos que los visitantes de América del Norte en el universo considerado. Como el riesgo es alto no podemos afirmar lo anterior. Es decir la diferencia no es significativa pues es más bien aleatoria.
Si ahora hacemos el mismo test para varias frecuencias, en este caso para los visitantes Europeos en número de 43, América del Norte con 38 y América del Sur con 23, con un total de 104.
Tabla 11.Test de significación para tres frecuencias de visitantes receptivos
F KF KF - N KF – N al cuadrado X al cuadrado 1 43 129 +25 + 625 2 38 114 +10 + 100 3 23 69 - 35 + 1.225 104 312 cero 1.225/312=
3,93
La prueba Chi cuadrado anterior nos arroja el valor de 3,93 y para 2 grados de libertad ( 3 – 1 = 2); pero en la tabla de Chi cuadrado para 5% de probabilidad y 2 grados de libertad el valor es igual a 5,991 (digamos 6) y en nuestro cálculo hemos obtenido 3,93 (o sea un dato inferior a 6), lo cual nos indica que tenemos un poco menos del 20% de probabilidad de equivocarnos al afirmar que, en la población, los resultados de las tres categorías no son iguales.
En la prueba de dos frecuencias (Visitantes Europeos y Visitantes de América del Norte) bastaba con conocer el dato límite de 4 ( 3,84) para un grado de libertad, pero cuando nos enfrentamos a más frecuencias es necesario consultar la tabla de Chi Cuadrado para poder hacer el test de significación.
En la tabla de Chi cuadrado para 1, 2 y 3 grados de libertad las probabilidades con el 5% aceptable son: 3,8 (4), 5,99 (6) y 7,82 (8) y existe una regla práctica, en el caso de no tener la tabla de los valores tolerables, que consiste en aplicar la siguiente fórmula : 3,5 + 1,5 x GL.
Así pues, si el grado de libertad es digamos 10, entonces con la fórmula anterior: 1,5 por 10 = 15 y luego 3,5 + 15 = 18,5, que es más o menos la misma intercepción entre 10 grados de libertad y 5% de probabilidad. Esta regla sencilla nos arroja un valor aproximado ( en la tabla el valor es 18,307 ) y en la medida en que los grados de libertad sea mayores de 10, entonces los valores estimados hay que tomarlos con más cautela.
Veamos ahora los datos para los visitantes Europeos, América del Sur, América del Norte, así como Centra América y Caribe con los valores de visitantes igual a : 43, 23,38 y 13 y un total de 117 ( en miles de turistas).
Según esos datos, los visitantes europeos representan el 37% del total. Ahora utilizando otro nomograma o ábaco que relaciona el porcentaje del total (P) con N, o sea en este caso: 117 y con el indicador de tolerancia T, ello nos arroja una tolerancia igual a 9%, o sea más elevado que la tolerancia aceptada del 5%.
Si quisiéramos una tolerancia máxima del 5%, cuál debería ser el porcentaje de los visitantes europeos en relación al total?
Tomemos el 50%, con un umbral de significación del 5% entonces se necesitaría realizar una promoción para captar al menos 300.000 europeos en un trimestre; y con una tolerancia del 8%, el ábaco nos indica que se deberían captar en un trimestre 300.000 visitantes totales de los cuales 150.000 deberían ser europeos.
Lo anterior supone un esfuerzo promocional para obtener una cuota de mercado anual de al menos 1.200.000 turistas de los cuales Europa participaría con 600.000 turistas anuales. Una meta posible de lograr siempre que se negocie con un Tour Operador un programa de marketing agresivo.
Cuando no se tiene a la mano el nomograma o ábaco, entonces la tolerancia se puede estimar con la siguiente fórmula:
T = t raíz de P x Q / N
Si la muestra esta formada por 300 sujetos y se estima que de esos sujetos el 40% es una parte del total, quedando el 60% para la otra parte, y con un umbral del 5% (1,96),entonces:
T = 1,96 x raíz de 40 x 60 / 300 = 1,96 x raíz de 8 = 1,96 x 2,28 = 5,547% .
Este es un buen resultado, pues si se utiliza el ábaco la tolerancia es igual a 5,5%.
Muchas veces cuando queremos hacer una encuesta, deseamos calcular el número de sujetos a interrogar para obtener una tolerancia (T) elegida de antemano, como puede ser digamos el 4% y con un umbral de significación del 5% ( 1,96), así:
N = ( 50 x 1,96 / 4 ) elevado a la dos
N = ( 98 / 4 ) elevado a la dos
N = (24,5 ) elevado a la dos
N = 600
Las tablas de contingencia y su significación
Una tabla de contingencia es una técnica utilizada en la estadística comercial con la idea de comparar varias eventualidades o confrontar los datos obtenidos unos con los otros, datos que por lo general surgen de las encuestas. Si las diferencias son significativas se puede concluir que existe una determinada relación entre los datos e igualmente nos permite evaluar el riesgo de no equivocarnos.
Tabla 12. Tabla de contingencia 2 x 2
Impactados No Impactados Totales Visita sin impacto publicitario 34 (9,9%) 72 (21,1%) 106 (31%) Visita con impacto publicitario 108 (31,6%) 128 (37,4) 236 (69%) Totales 142 (41,5%) 200 (58,5%) 342 (100%)
Esta tabla realmente se organiza de este modo:
Tabla 13. datos resumidos de la tabla de contingencia
Impactados No Impactados Visitaron el sitio sin conocer la publicidad 34 72 24% 36% Visitaron el sitio al conocer la publicidad 108 128 76% 64% Totales 142 200 100% 100%
La tabla de contingencia anterior resume una encuesta sobre la atención a programas publicitarios turísticos. Se han interrogado a visitantes que han estado sometidas a ver esas promociones y aquellos que no la habían conocido. De la encuesta a 342 turistas, en el cuadro o tabla de contingencia 2 x 2 aparecen las respuestas de los conocedores de la publicidad e impactados por ella (en la columna Impactados) y los visitantes que no conocieron la publicidad (no impactados).
Los turistas que han visitado el sitio publicitado e impactados por la promoción figuran en segunda la fila y los demás en la primera fila ( lo visitaron sin influencia del impacto publicitario).
Según la tabla resumen 13, el sitio turístico han sido visitados por el 76% (108) de los turistas que conocieron la promoción y por el 64% de los que no estuvieron impactados por la publicidad (128). O sea un total de 236 visitantes (el 69% de 342). La pregunta clave es: ¿es significativa esta diferencia?
Teóricamente, si la publicidad y la promoción no guarda ninguna relación con la visita a un sitio turístico esto quiere decir que existe en la población o universo la misma proporción de visitantes en el lugar entre los turistas impactados por la publicidad y aquellos que no estuvieron impactados. Siendo esta proporción de la población total como vimos de 0,69 (69%).
Siendo la proporción de impactados igual a 0,415 (41,5%), y la proporción de visitantes igual a 0,69 (69%), entonces el porcentaje teórico de visitantes impactos por la publicidad será igual a 41,5% del 69%, o sea: 0,415 x 0,69 = 0,286 (28,6%) y el número teórico de visitantes de un total N= 342, será pues igual a 0,286 x 342 = 97,81 , mientras que en el cuadro 6 es igual a 108. Esa diferencia se debe a los errores del muestreo? Si la probabilidad es pequeña la diferencia es significativa y si la probabilidad no es pequeña, es posible que exista un error de muestreo.
Si hacemos una aprueba de Chi Cuadrado con el siguiente grado de libertad : 2 columnas menos 1 por 2 filas menos 1, o sea: grado de libertad 1 y en base a la tabla 14 siguiente:
Tabla 14.Datos básicos para la prueba Chi cuadrado.
34 72 106 108 128 236 142 200 342
108 x 72 = 7.776
128 x 34 = 4.352
Suma 3.424
3.424 al cuadrado = 11.700.000
142 x 200= 28.400
236 x 106 = 25.000
Chi cuadrado = 11.700.000 x 342 / 28.400 x 25.000
Chi cuadrado = 4.000.000.000 / 710.000.000 = 5,64
El resultado es significativo pues es mayor que el indicador tolerable del 3,841 para 1 grado de libertad y 5% de probabilidad. El valor 5,64 es algo menos del 2% de probabilidad de equivocarnos.
Todavía nos hallamos lejos de los verdaderos estudios comerciales del turismo como sector terciario de la economía, pero es necesario trabajar los datos con las herramientas estadísticas de que disponemos.
Quizá lo más complejo sea realizar una buena evaluación de los hechos. La palabra evaluación es muy elástica porque con ella podemos abarcar muchas clases de juicios. En realidad lo que esa palabra quiere decir es con ella podemos tener una noción de los méritos de un asunto e incluso aumentar la racionalidad de las decisiones ( Weiss,1978,p.13-14).
La publicidad, la promoción turística y la venta de espacios lúdicos es un fenómeno sociopsicológico. Podemos ver cómo evoluciona la llegada de turistas, pero no sabemos las causas, que pueden ser económicas o psicológicas. Incluso las causas psicológicas son las más poderosas.
Entonces, los test de significación se adaptan a los estudios psicológicos y en especial los tests de contingencia.
Un espacio turístico ensalzado como un lugar único y de elevado precio, se vende rápidamente y a lo mejor no pasa de moda. Los móviles de compra son, en gran parte, inconscientes; el turista no puede, por lo tanto, decirnos sus motivos. Si le preguntamos, corremos el riesgo que responda cualquier cosa. Sólo si provocamos un comportamiento en el interrogado, podemos detectar algunos motivos útiles para ser sometidos a la estadística evaluativa.
CONSIDERACIONES FINALES
Decía Sierra Bravo que : […] los resultados de las investigaciones sociales se refieren normalmente a muestras de la población investigada y no a la población misma. Si bien se suele hacer la generalización de que dichos resultados también son válidos para el universo o población de que se trate, siempre se plantea la duda fundamental de si es admisible esta generalización ( 1983, p. 531).
Dijimos que la duda surge porque es posible que los resultados obtenidos en la muestra se puedan deber a un hecho fortuito o al azar y no al hecho de que los parámetros encontrados en la muestra se puedan trasladar al universo. Por eso mismo es necesario buscar la validez de los hallazgos, con el fin de saber si los parámetros de una muestra se pueden generalizar hacia la población de donde la muestra se tomó. Esta búsqueda de la validez se denomina significación estadística y es un cálculo necesario y fundamental para no correr riesgos de hacer aseveraciones infundadas.
Esto también la corroboró Guillermo Briones (1982, p. 187) al señalar que las pruebas de significación se deben emplear cuando se trabaja con datos que provienen de muestras probabilísticas, siempre que el marco muestral sea perfecto y el universo sea relevante o sea con las características apropiadas para someterlo a verificación de hipótesis.
Es bueno señalar que los especialistas en la metodología cualitativa etnográfica señalan que en este campo se trabaja con mini-paradigmas y con sus propios presupuestos lógicos internos apoyados en valores, tradiciones, roles que se van regularizando para explicar la conducta individual y grupal de una manera adecuada (Martínez, 2000, p. 1).
En este campo los eventos tienen el significado para quienes están en ese medio social o en ese contexto y la relación que consiguen es holística para ser interpretada de acuerdo a criterios vivénciales. Es decir, la pregunta básica es : ¿cuál es la cultura del grupo?, como lo hacen los antropólogos; o bien , ¿cuál es la filosofía o esencia del fenómeno?, como lo hacen los filósofos; o en todo caso, ¿cuál es el significado de la acción humana, según el contexto?, como lo hacen los analistas de contenidos con su hermenéutica; o también, ¿cuál es el procedimiento para superar la situación?, como lo hacen los psicólogos sociales e incluso la perspectiva etnometodológica, cuando el sociólogo trata de conocer de qué manera la gente le da sentido a sus actividades diarias, para comportarse de una manera socialmente aceptable.
En esto estudios cualitativos se acepta una muestra intencional y el investigador tiene que ser muy agudo para poder lograr su evidencia racional o validez empírica, basándose en la coherencia interna y externa, en la comprensión, en la capacidad predictiva, en la precisión conceptual, originalidad, simplicidad, y en aplicación práctica cuando existen contrastes y potencia heurística. La validez aparece al tener una imagen clara y representativa de una realidad y si se pueden aplicar a grupos similares. Incluso, si el estudio se puede repetir con el mismo método sin alterar los resultados entonces surge la confiabilidad de lo investigado.
Como hemos visto la manera de conocer con propiedad lo que se investiga es muy diferente si se trata de una abordaje cuantitativo o bien cualitativo. Cada investigador, según el planteamiento del problema y el marco teórico tendrá que tomar una decisión del método para realizar su trabajo.
Referencias bibliográficas
Briones, Guillermo.
1982 Métodos y técnicas de investigación para las ciencias sociales. México : Editorial Trillas.
Ibarra Martínez, Oscar Mario.
2006 Estadística para la administración turística. México: Editorial Trillas.
Martínez , Miguel.
2000 Metodología cualitativa. Caracas: INESCO-USB.
Mentha, Gerald.
1964 Los tests estadísticos aplicados a la empresa. Bilbao: Deusto.
Pin, Henri.
1964 Primeras aplicaciones de estadística comercial. Barcelona: Sagitario.
Runyon, Richard y Haber Autrey.
1992 Estadística para las ciencias sociales. USA: Addison-Wesley Iberoamericana.
Sierra Bravo, R.
1983 Técnicas de investigación social: teoría y ejercicios. Madrid: Paraninfo.
Suits, Daniel.
1963 Statistics: an introduction to quantitative economic research. Chicago: Rand McNally&Company.
1