Skip to content
Exploratory data analysis of industry sectors
  • AI Chat
  • Code
  • Report
  • Spinner

    Este cuaderno trata de explicar el tipo de sectores industriales que existen en el Ecuador. Esta sería una primera parte de un trabajo de investigación que trata de analizar el mapa industrial regional que existe en el país.

    Este Notebook incluye:

    1.Análisis exploratorio de datos de la base. 2.Gráficos y resultados de algunas preguntas sobre los datos.

    This notebook is about to explain the type of industry sectors that exist in Ecuador. This would be a first part of a work research which tries to analyse the regional industry map that exist in the country. This notebook includes:

    1. Exploratory data analysis of the base
    2. Plots and results of some questions about the data.
    # Librerías para mi análisis
    import pandas as pd
    import matplotlib as plt
    import numpy as np
    # Librerías para visualizacion
    import matplotlib.pyplot as plt
    import matplotlib.colors as colors
    from matplotlib import cm
    import re
    #Llamo al archivo excel que subí en mi carpeta de trabajo.
    file='data_empresas.xlsx'
    df = pd.read_excel(file)
    #print (df.head())
    df.head(3)

    Preparing the data: In this section I will maintain only variables (cols) that I consider relevant for my analysis.

    
    df1=df.filter(items=['id_empresa','anio','forma_institucional',
                         'unidad_legal_tipo','gsectores',
                    'codigo_clase','clase','provincia','ventas_totales','exportaciones_netas','plazas']).copy()
    
    prov=['Pichincha','Guayas'] # Provincias a analizar
    gsec=['Industrias Manufactureras','Agricultura, ganadería, silvicultura y pesca','Explotación de Minas y Canteras'] # Sectores industriales a analizar
    #df2 = df1[(df1['provincia'].isin(prov))&(df1['gsectores'].isin(gsec))&(df1['forma_institucional']!='Economía Popular y Solidaria')].copy()
    df2 = df1[(df1['gsectores'].isin(gsec))&(df1['forma_institucional']!='Economía Popular y Solidaria')].copy()
    df2 = df2.reset_index(drop=True).copy()
    df2.head(5)

    ¿Cuántos años hay en la base?

    df2['anio'].unique()
    

    ¿Cuántos códigos sectoriales industriales contiene la base?

    df2['codigo_clase'].nunique()
    

    Ejercicio: ¿Cuáles fueron los sectores de mayores ventas de Ecuador en el 2019 ?

    # Retiro el año 2020 para trabajar hasta el 2019. 
    
    #df2 = df1[(df1['provincia'].isin(prov))&(df1['gsectores'].isin(gsec))&(df1['forma_institucional']!='Economía Popular y Solidaria')&(df1['anio']!=2020)].copy()
    
    # Voy a considerar todas las provincias
    df2 = df1[(df1['gsectores'].isin(gsec))&(df1['forma_institucional']!='Economía Popular y Solidaria')&(df1['anio']!=2020)].copy()
    
    df2 = df2.reset_index(drop=True).copy()
    df2['anio'].unique()
    
    
    # Creo un dataframe temporal (df_tmp) solo para el año 2019
    df_tmp = df2[ (df2['anio'] == 2019) ].copy()
    # Creo un dataframe 'df_2019' que contenga la suma de las ventas por sectores 
    df_2019 = df_tmp.groupby(['codigo_clase','clase','provincia',],as_index=False)['ventas_totales','exportaciones_netas'].sum()
    # Ordeno la base df_2019
    df_2019.sort_values(by=['ventas_totales'],ascending=False,inplace=True)
    # show first 10 rows
    df_2019[0:10]
    # Realizo un Bar Plot que contenga los 10 mayores ventas por sectores industriales en el df_2019.
    
    ax = df_2019[0:10].plot.bar(x='codigo_clase',y='ventas_totales',rot=0, figsize=(10,6))
    sty='Ventas totales 2019 de los TOP 10 de los Sectores Industriales'
    ax.set_title(' {!r}'.format(sty), color='C0')

    ¿Cuáles fuerons las industrias TOP por provincia en el año 2019?