Update bg handler

luccasmmg · luccasmmg · commit e9f14b77a5ac · 2025-07-21T08:57:28.000-03:00
diff --git a/aircan/dags/api_ckan_import_to_bq.bkp.py b/aircan/dags/api_ckan_import_to_bq.bkp.py
@@ -0,0 +1,77 @@
+
+import logging
+import time
+import json
+import ast
+from datetime import date, datetime
+
+# Local imports
+from aircan.dependencies.google_cloud.bigquery_handler import bq_import_csv
+
+# Third-party library imports
+from airflow import DAG
+from airflow.exceptions import AirflowException
+
+from airflow.models import Variable
+from airflow.operators.python_operator import PythonOperator
+from airflow.utils.dates import days_ago
+
+
+args = {
+    'start_date': days_ago(0),
+    'params': {
+        "resource": {
+            "path": "path/to/my.csv", 
+            "format": "CSV",
+            "ckan_resource_id": "res-id-123",
+            "schema": {
+                "fields": "['field1', 'field2']"
+            } 
+        },
+        "ckan_config": {
+            "api_key": "API_KEY",
+            "site_url": "URL",
+        },
+        "big_query": {
+            "bq_project_id": "bigquery_project_id",
+            "bq_dataset_id": "bigquery_dataset_id"
+        },
+        "output_bucket": str(date.today())
+    }
+}
+
+dag = DAG(
+    dag_id='ckan_api_import_to_bq',
+    default_args=args,
+    schedule_interval=None
+)
+
+def task_import_resource_to_bq(**context):
+    logging.info('Invoking import resource to bigquery')
+    logging.info("resource: {}".format(context['params'].get('resource', {})))
+
+    gc_file_url = context['params'].get('big_query', {}).get('gcs_uri')
+    bq_project_id = context['params'].get('big_query', {}).get('bq_project_id')
+    bq_dataset_id = context['params'].get('big_query', {}).get('bq_dataset_id')
+    bq_table_name = context['params'].get('big_query', {}).get('bq_table_name')
+    logging.info("bq_table_name: {}".format(bq_table_name))
+    
+    raw_schema = context['params'].get('resource', {}).get('schema')
+    eval_schema = json.loads(raw_schema)
+    eval_schema = ast.literal_eval(eval_schema)
+    schema = eval_schema.get('fields')
+    logging.info("SCHEMA: {}".format(schema))
+
+    # sample bq_table_id: "bigquerytest-271707.nhs_test.dag_test"
+    bq_table_id = '%s.%s.%s' % (bq_project_id, bq_dataset_id, bq_table_name)          
+    logging.info('Importing %s to BQ %s' % (gc_file_url, bq_table_id))
+    ckan_conf = context['params'].get('ckan_config', {})
+    ckan_conf['resource_id'] = context['params'].get('resource', {}).get('ckan_resource_id')
+    bq_import_csv(bq_table_id, gc_file_url, schema, ckan_conf)
+
+import_resource_to_bq_task = PythonOperator(
+    task_id='import_resource_to_bq',
+    provide_context=True,
+    python_callable=task_import_resource_to_bq,
+    dag=dag,
+)
diff --git a/aircan/dags/api_ckan_import_to_bq.py b/aircan/dags/api_ckan_import_to_bq.py
@@ -6,7 +6,8 @@
 from datetime import date, datetime
 
 # Local imports
-from aircan.dependencies.google_cloud.bigquery_handler import bq_import_csv
+from aircan.dependencies.google_cloud.bigquery_handler_v2 import bq_import_csv
+from aircan.dependencies.utils import aircan_status_update_nhs as aircan_status_update
 
 # Third-party library imports
 from airflow import DAG
@@ -15,7 +16,7 @@
 from airflow.models import Variable
 from airflow.operators.python_operator import PythonOperator
 from airflow.utils.dates import days_ago
-
+import traceback
 
 args = {
     'start_date': days_ago(0),
@@ -41,12 +42,14 @@
 }
 
 dag = DAG(
-    dag_id='ckan_api_import_to_bq',
+    dag_id='ckan_api_import_to_bq_v2',
     default_args=args,
     schedule_interval=None
 )
 
 def task_import_resource_to_bq(**context):
+    ckan_api_key = context['params'].get('ckan_config', {}).get('api_key')
+    ckan_site_url = context['params'].get('ckan_config', {}).get('site_url')
     logging.info('Invoking import resource to bigquery')
     logging.info("resource: {}".format(context['params'].get('resource', {})))
 
@@ -58,7 +61,8 @@ def task_import_resource_to_bq(**context):
     
     raw_schema = context['params'].get('resource', {}).get('schema')
     eval_schema = json.loads(raw_schema)
-    eval_schema = ast.literal_eval(eval_schema)
+    if isinstance(eval_schema, str):
+        eval_schema = ast.literal_eval(eval_schema)
     schema = eval_schema.get('fields')
     logging.info("SCHEMA: {}".format(schema))
 
@@ -67,11 +71,23 @@ def task_import_resource_to_bq(**context):
     logging.info('Importing %s to BQ %s' % (gc_file_url, bq_table_id))
     ckan_conf = context['params'].get('ckan_config', {})
     ckan_conf['resource_id'] = context['params'].get('resource', {}).get('ckan_resource_id')
+    dag_run_id = context['run_id']
+    res_id = ckan_conf.get('resource_id')
+    ckan_conf['dag_run_id'] = dag_run_id
     bq_import_csv(bq_table_id, gc_file_url, schema, ckan_conf)
+    status_dict = {
+    'dag_run_id': dag_run_id,
+    'resource_id': res_id,
+    'state': 'complete',
+    'message': 'Data ingestion completed successfully for "{res_id}".'.format(
+                res_id=res_id),
+    'clear_logs': True
+    }
+    aircan_status_update(ckan_site_url, ckan_api_key, status_dict)
 
 import_resource_to_bq_task = PythonOperator(
-    task_id='import_resource_to_bq',
+    task_id='import_resource_to_bq_v2',
     provide_context=True,
     python_callable=task_import_resource_to_bq,
     dag=dag,
-)
+)
diff --git a/aircan/dependencies/google_cloud/bigquery_handler_v2.py b/aircan/dependencies/google_cloud/bigquery_handler_v2.py
@@ -23,28 +23,67 @@ def bq_import_csv(table_id, gcs_path, table_schema, ckan_conf):
             job_config.source_format = bigquery.SourceFormat.CSV
             # overwrite a Table
             job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE
-            # set 'True' for schema autodetect but turning it off since we define schema in explicitly when publishing data using datapub
-            # job_config.autodetect = True
             load_job = client.load_table_from_uri(
                 gcs_path, table_id, job_config=job_config
             )
 
             load_job.result()  # Waits for table load to complete.
             destination_table = client.get_table(table_id)
         except Exception as e:
-            job_config = bigquery.LoadJobConfig()
-
-            job_config.skip_leading_rows = 1
-            job_config.source_format = bigquery.SourceFormat.CSV
-            # overwrite a Table
-            job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE
-            # set 'True' for schema autodetect but turning it off since we define schema in explicitly when publishing data using datapub
-            # job_config.autodetect = True
-            load_job = client.load_table_from_uri(
-                gcs_path, table_id, job_config=job_config
+            logging.info(e)
+            # Use a list to build the string components efficiently.
+            error_lines = []
+            error_lines.append(
+                "BigQuery Load Job Failed with a BadRequest."
             )
-            load_job.result()  # Waits for table load to complete.
-            destination_table = client.get_table(table_id)
+            error_lines.append(f"Original API message: {e}")
+
+            # The key part: Iterate through the e.errors list and append to our list.
+            if load_job.errors:
+                error_lines.append("\n--- Detailed Error Breakdown ---")
+                logging.info(load_job.errors)
+                for i, error in enumerate(load_job.errors):
+                    # Format each error dictionary into a readable line.
+                    line = (
+                        f"Error {i+1}: "
+                        f"Reason: {error.get('reason', 'N/A')}, "
+                        f"Location: {error.get('location', 'N/A')}, "
+                        f"Message: {error.get('message', 'N/A')}"
+                    )
+                    error_lines.append(line)
+            else:
+                error_lines.append("No detailed errors were provided in the exception.")
+
+            # Join the list of lines into a single string with newlines.
+            error_report_string = "\n".join(error_lines)
+            logging.info(error_report_string)
+            status_dict = {
+                'res_id': ckan_conf.get('resource_id'),
+                'state': 'failed',
+                'message': error_report_string,
+                'dag_run_id': ckan_conf.get('dag_run_id')
+            }
+            aircan_status_update(ckan_conf.get('site_url'), ckan_conf.get('api_key'), status_dict)
+            raise AirflowCKANException('Data ingestion has failed.', str(e))
+            #status_dict = {
+            #    'res_id': ckan_conf.get('resource_id'),
+            #    'state': 'progress',
+            #    'message': 'Data ingestion using provided schema failed, trying to autodetect schema.',
+            #    'dag_run_id': ckan_conf.get('dag_run_id')
+            #}
+            #aircan_status_update(ckan_conf.get('site_url'), ckan_conf.get('api_key'), status_dict)
+            #job_config = bigquery.LoadJobConfig()
+            #job_config.autodetect = True
+
+            #job_config.skip_leading_rows = 1
+            #job_config.source_format = bigquery.SourceFormat.CSV
+            ## overwrite a Table
+            #job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE
+            #load_job = client.load_table_from_uri(
+            #    gcs_path, table_id, job_config=job_config
+            #)
+            #load_job.result()  # Waits for table load to complete.
+            #destination_table = client.get_table(table_id)
         status_dict = {
             'res_id': ckan_conf.get('resource_id'),
             'state': 'progress',