Project: What's in an Avocado Toast: A Supply Chain Analysis

import pandas as pd

import pandas as pd
avocado = pd.read_csv("data/avocado.csv", sep='\t')
col_subset = [ 'code', 'lc', 'product_name_en', 'quantity', 'serving_size', 'packaging_tags', 'brands', 'brands_tags', 'categories_tags', 'labels_tags', 'countries', 'countries_tags', 'origins','origins_tags']
avocado = avocado[col_subset]

avocado = avocado.dropna(subset = 'categories_tags')
avocado['categories_list'] = avocado['categories_tags'].str.split(',')

relevant_categories = ['en:avocadoes', 'en:avocados', 'en:fresh-foods', 'en:fresh-vegetables', 'en:fruchte', 'en:fruits', 'en:raw-green-avocados', 'en:tropical-fruits', 'en:tropische-fruchte', 'en:vegetables-based-foods','fr:hass-avocados']

avocado = avocado[avocado['categories_list'].apply(lambda x: any([i for i in x if i in relevant_cats]))]

avocado.head()

avocado[avocado["countries"] == "United Kingdom"]

def read_and_filter_data(filepath, relevant_categories):
    df = pd.read_csv(filepath, sep="\t")
    col_subset = [ 'code', 'lc', 'product_name_en', 'quantity' 
                  'serving_size', 'packaging_tags', 'brands', 'brands_tags',
                  'categories_tags', 'labels_tags', 'countries',
                  'countries_tags', 'origins','origins_tags']
    df = df[col_subset]
    df = df.dropna(subset='categories_tags')
    df["categories_list"] = df["categories_tags"].str.split(',')
    df = df[df["categories_list"].apply(lambda x: any([i for i in x if i in relevant_categories]))]
    return df

relevant_categories = ['en:aromatic-plants', 'en:citron', 'en:citrus', 'en:fresh-fruits', 'en:fresh-lemons', 'en:fruits', 'en:lemons', 'en:unwaxed-lemons']

lemons = read_and_filter_data("data/lemon.csv", relevant_categories)

lemon = pd.read_csv("data/lemon.csv", sep="\t")