(#16)

kggold4 · kggold4 · commit 3162818f9ee1 · 2023-04-27T22:22:28.000+03:00
* Start implement `bbc` scraper and logic_scraper
* Update scrapers README.md
* Add `Task` object
diff --git a/db_driver/db_objects/task.py b/db_driver/db_objects/task.py
@@ -0,0 +1,26 @@
+import datetime
+from dataclasses import dataclass, asdict, field
+from typing import List, Optional
+
+from db_driver.db_objects.timestamp import Timestamp
+
+
+@dataclass
+class Task:
+    task_id: str
+    url: str
+    domain: str
+    status: str
+    type: str
+    status_timestamp: List[Timestamp] = field(default_factory=lambda: [])
+    creation_time: datetime.datetime = None
+    collecting_time: datetime.datetime = None  # todo: check if needed
+
+    def __repr__(self) -> str:
+        string = ''
+        for prop, value in vars(self).items():
+            string += f"{str(prop)}: {str(value)}\n"
+        return string
+
+    def convert_to_dict(self) -> dict:
+        return asdict(self)
diff --git a/db_driver/db_objects/timestamp.py b/db_driver/db_objects/timestamp.py
@@ -0,0 +1,19 @@
+import datetime
+from dataclasses import dataclass, asdict
+from typing import List, Optional
+
+
+@dataclass
+class Timestamp:
+    status: str
+    start_time: datetime.datetime
+    end_time: datetime.datetime
+
+    def __repr__(self) -> str:
+        string = ''
+        for prop, value in vars(self).items():
+            string += f"{str(prop)}: {str(value)}\n"
+        return string
+
+    def convert_to_dict(self) -> dict:
+        return asdict(self)
diff --git a/db_driver/mongodb_driver.py b/db_driver/mongodb_driver.py
@@ -117,18 +117,18 @@ def delete_many(self, table_name: str, data_filter: dict) -> bool:
     def update_one(self, table_name: str, data_filter: dict, new_data: dict) -> ObjectId:
         try:
             self.logger.debug(f"Trying to delete one data from table: '{table_name}', db: '{self.DB_NAME}'")
-            res = self.__db[table_name].update_one(data_filter, new_data)
+            res = self.__db[table_name].update_one(data_filter, {"$set": new_data})
             if res:
                 object_id = res.raw_result.get('_id')
                 self.logger.info(
                     f"updated one data from db: '{self.DB_NAME}', table_name: '{table_name}', id: '{object_id}'")
                 return object_id
             else:
-                desc = f"Error delete data with filter: {data_filter}, table: '{table_name}, db: {self.DB_NAME}'"
+                desc = f"Error update data with filter: {data_filter}, table: '{table_name}, db: {self.DB_NAME}'"
                 self.logger.error(desc)
-                raise DeleteDataDBException(desc)
+                raise UpdateDataDBException(desc)
         except Exception as e:
-            self.logger.error(f"Error delete one from db: {str(e)}")
+            self.logger.error(f"Error update one from db: {str(e)}")
             raise e
 
     @log_function
diff --git a/db_driver/utils/consts.py b/db_driver/utils/consts.py
@@ -0,0 +1,3 @@
+class DBConsts:
+    TASKS_TABLE_NAME = "tasks"
+    ARTICLE_TABLE_NAME = "articles"
diff --git a/scrapers/README.md b/scrapers/README.md
@@ -1,6 +1,6 @@
 # Scraper Component
 
-> ### <i>Scraper Flow</i>
+> ## <i>Scraper Flow</i>
 
 ```mermaid
 graph TD;
@@ -10,17 +10,26 @@ a{ scraping-task } -->scrape-new-articles-urls
 scrape-new-articles-urls --> scrape-articles-content;
 ```
 
-> ### <i>Running Scraping Task</i>
+> ## <i>Running Scraping Task</i>
 
-1. get `pending` collecting task from db
-2. get website scraper instance using factory
-3. init scraper driver
-4. get url page
-5. get urls list
-6. filter only new urls
-7. for each url:
-    1. get to url page
-    2. collect article content
-    3. save to db
-    4. update task list of collected articles *
-8. update task as `succeeded` or `failed`
+### Type of task - `collect_urls`
+
+1. get `pending` collecting task from db - if not found pending - get by `failed` status
+2. set task status as `running`
+3. get website scraper instance using factory
+4. init scraper driver
+5. get url page
+6. get urls list
+7. filter only new urls
+8. for each new url - create new task for collecting content
+
+### Type of task - `collect_article`
+
+1. get `pending` collecting task from db - if not found pending - get by `failed` status
+2. set task status as `running`
+3. get website scraper instance using factory
+4. init scraper driver
+5. get url page (article)
+6. collect article content
+7. save to db
+8. update task as `succeeded` or `failed`
diff --git a/scrapers/__init__.py b/scrapers/__init__.py
@@ -1,8 +1,9 @@
 from logger import get_current_logger
+from scrapers.websites_scrapers.bbc_scraper import BBCScraper
 from scrapers.websites_scrapers.utils.exceptions import UnknownWebsiteScraperException
 from scrapers.websites_scrapers.website_scraper_base import WebsiteScraperBase
 
-SCRAPERS = {}  # example: "bbc": BBCWebsiteScraper
+SCRAPERS = {"bbc": BBCScraper}  # example: "bbc": BBCWebsiteScraper
 
 
 def websites_scrapers_factory(scraper_name: str, *args, **kwargs) -> WebsiteScraperBase:
@@ -17,7 +18,7 @@ def websites_scrapers_factory(scraper_name: str, *args, **kwargs) -> WebsiteScra
     try:
         return SCRAPERS[scraper_name](*args, **kwargs)
     except KeyError:
-        desc = f"Cannot find scraper name: `{scraper_name}` in {SCRAPERS}"
+        desc = f"Cannot find scraper name: `{scraper_name}` in {SCRAPERS.keys()}"
         logger.error(desc)
         raise UnknownWebsiteScraperException(desc)
     except Exception as e:
diff --git a/scrapers/logic_scraper.py b/scrapers/logic_scraper.py
@@ -1,17 +1,110 @@
+from datetime import datetime
+from time import sleep
+from typing import List
+from uuid import uuid4
+
+from pymongo.errors import ConnectionFailure
+
+from db_driver import get_current_db_driver
+from db_driver.db_objects.db_objects_utils import get_db_object_from_dict
+from db_driver.db_objects.task import Task
+from db_driver.utils.consts import DBConsts
+from db_driver.utils.exceptions import DataNotFoundDBException, UpdateDataDBException, InsertDataDBException
+from logger import get_current_logger
+from scrapers import websites_scrapers_factory
+from scrapers.websites_scrapers.utils.consts import MainConsts
+
+
 class LogicScaper:
-    pass
+    SLEEPING_TIME = 60 * 15
+
+    def __init__(self):
+        self.logger = get_current_logger()
+        self._db = get_current_db_driver()
+
+    def _get_task_by_status(self, status: str):
+        try:
+            task: dict = self._db.get_one(table_name=DBConsts.TASKS_TABLE_NAME, data_filter={"status": status})
+            task_object: Task = get_db_object_from_dict(task, Task)
+            return task_object
+        except DataNotFoundDBException:
+            return None
+
+    def _get_new_task(self) -> Task:
+        for status in ["pending", "failed"]:
+            task = self._get_task_by_status(status=status)
+            if task:
+                return task
+
+    def _update_task_status(self, task_id: str, status: str):
+        try:
+            data_filter = {"task_id": task_id}
+            new_data = {"status": status}
+            self._db.update_one(table_name=DBConsts.TASKS_TABLE_NAME, data_filter=data_filter, new_data=new_data)
+        except UpdateDataDBException as e:
+            desc = f"Error updating task as `running`"
+            self.logger.error(desc)
+            raise e
+
+    def _filter_only_not_exits_articles(self, urls: List[str]) -> List[str]:
+        data_filter = {"url": {"$in": urls}}
+        exists_articles = self._db.get_many(table_name=DBConsts.ARTICLE_TABLE_NAME, data_filter=data_filter)
+        exists_articles_urls = {exists_article.get("url") for exists_article in exists_articles}
+        new_articles = list(set(urls).difference(exists_articles_urls))
+        return new_articles
+
+    def _create_new_task(self, url: str, domain: str):
+        for trie in range(MainConsts.TIMES_TRY_CREATE_TASK):
+            try:
+                task_data = {
+                    "task_id": str(uuid4()),
+                    "url": url,
+                    "domain": domain,
+                    "status": "pending",
+                    "type": MainConsts.COLLECT_ARTICLE,
+                    "creation_time": datetime.now()
+                }
+                new_task: dict = Task(**task_data).convert_to_dict()
+                inserted_id = self._db.insert_one(table_name=DBConsts.TASKS_TABLE_NAME, data=new_task)
+                self.logger.info(f"Created new task inserted_id: {inserted_id}")
+                return
+            except Exception as e:
+                self.logger.warning(f"Error create new task NO. {trie}/{MainConsts.TIMES_TRY_CREATE_TASK} - {str(e)}")
+                continue
+        desc = f"Error creating new task into db after {MainConsts.TIMES_TRY_CREATE_TASK} tries"
+        raise InsertDataDBException(desc)
+
+    def _handle_task(self, task: Task):
+        if task.type == MainConsts.COLLECT_URLS:
+            website_scraper = websites_scrapers_factory(scraper_name=task.domain)
+            urls = website_scraper.get_new_article_urls_from_home_page()
+            urls = self._filter_only_not_exits_articles(urls=urls)
+            for url in urls:
+                try:
+                    self._create_new_task(url=url, domain=task.domain)
+                except Exception as e:
+                    desc = f"Error creating new task with type: {MainConsts.COLLECT_ARTICLE} - {str(e)}"
+                    self.logger.error(desc)
+        elif task.type == MainConsts.COLLECT_ARTICLE:
+            pass
 
     def run(self):
-        pass
-        # 1. get `pending` collecting task from db
-        # 2. get website scraper instance using factory
-        # 3. init scraper driver
-        # 4. get url page
-        # 5. get urls list
-        # 6. filter only new urls
-        # 7. for each url:
-        #     1. get to url page
-        #     2. collect article content
-        #     3. save to db
-        #     4. update task list of collected articles *
-        # 8. update task as `succeeded` or `failed`
+        while True:
+            try:
+                task = self._get_new_task()
+                if task:
+                    self._update_task_status(task_id=task.task_id, status="running")
+                    self._handle_task(task=task)
+                else:
+                    self.logger.debug(f"Couldn't find task, sleeping for {self.SLEEPING_TIME / 60} minutes")
+                    sleep(self.SLEEPING_TIME)
+            except ConnectionFailure as e:
+                self.logger.warning(f"Error connecting to db, initialize the db again - {str(e)}")
+                self._db = get_current_db_driver()
+            except Exception as e:
+                self.logger.warning(f"Error handle task - {str(e)}")
+
+
+if __name__ == '__main__':
+    logic_scraper = LogicScaper()
+    logic_scraper.run()
diff --git a/scrapers/websites_scrapers/bbc_scraper.py b/scrapers/websites_scrapers/bbc_scraper.py
@@ -0,0 +1,76 @@
+import os
+from datetime import datetime
+from typing import List
+
+from selenium.webdriver.common.by import By
+
+from db_driver.db_objects.article import Article
+from logger import get_current_logger, log_function
+from scrapers.websites_scrapers.website_scraper_base import WebsiteScraperBase
+from scrapers.scraper_drivers import get_scraping_driver
+from scrapers.websites_scrapers.utils.consts import ScraperConsts, MainConsts
+from scrapers.websites_scrapers.utils.exceptions import FailedGetURLException
+
+
+class BBCScraper(WebsiteScraperBase):
+    USE_REQUEST_DRIVER = bool(os.getenv(key="USE_REQUEST_DRIVER", default=True))
+    HEADLESS = bool(os.getenv(key="HEADLESS", default=True))
+
+    def __init__(self):
+        self.logger = get_current_logger()
+        self._driver = get_scraping_driver(via_request=self.USE_REQUEST_DRIVER, headless=self.HEADLESS)
+        self._url = ScraperConsts.BBC_HOME_PAGE
+
+    @log_function
+    def _get_home_page(self):
+        exception = None
+        for trie in range(MainConsts.TIMES_TRY_GET_HOMEPAGE):
+            try:
+                self._driver.get_url(url=self._url)
+                self.logger.info(f"Successfully get home page -> `{self._url}`")
+                return
+            except Exception as e:
+                exception = e
+                desc = f"Cannot get into home page try NO. {trie + 1}/{MainConsts.TIMES_TRY_GET_HOMEPAGE} - {str(e)}"
+                self.logger.warning(desc)
+        desc = f"Failed get home page -> {self._url} after {MainConsts.TIMES_TRY_GET_HOMEPAGE} tries - {exception}"
+        self.logger.error(desc)
+        raise FailedGetURLException(desc)
+
+    def _get_article_page(self, url: str):
+        raise NotImplementedError
+
+    def _get_article_title(self) -> str:
+        raise NotImplementedError
+
+    def _get_article_content_text(self) -> str:
+        raise NotImplementedError
+
+    def _get_article_publishing_time(self) -> datetime:
+        raise NotImplementedError
+
+    def _get_article_category(self) -> str:
+        # default return - 'general'
+        raise NotImplementedError
+
+    def _get_article_image_urls(self) -> List[str]:
+        # default return - empty list
+        raise NotImplementedError
+
+    def _get_article_state(self) -> str:
+        # default return - 'global'
+        raise NotImplementedError
+
+    def get_new_article_urls_from_home_page(self) -> List[str]:
+        self._get_home_page()
+        articles_urls = []
+        articles_elements = self._driver.find_elements(by=By.CLASS_NAME, value="block-link__overlay-link")
+        for element in articles_elements:
+            href = element.get_attribute("href")
+            if self._url not in href:
+                href = self._url + href
+            articles_urls.append(href)
+        return articles_urls
+
+    def get_article(self, url: str) -> Article:
+        raise NotImplementedError
diff --git a/scrapers/websites_scrapers/utils/consts.py b/scrapers/websites_scrapers/utils/consts.py
@@ -0,0 +1,12 @@
+import os
+
+
+class ScraperConsts:
+    BBC_HOME_PAGE = "https://www.bbc.com/"
+
+
+class MainConsts:
+    COLLECT_URLS = "collect_urls"
+    COLLECT_ARTICLE = "collect_article"
+    TIMES_TRY_CREATE_TASK = int(os.getenv(key="TIMES_TRY_CREATE_TASK", default=3))
+    TIMES_TRY_GET_HOMEPAGE = int(os.getenv(key="TIMES_TO_TRY_GET_HOMEPAGE", default=3))
diff --git a/scrapers/websites_scrapers/utils/exceptions.py b/scrapers/websites_scrapers/utils/exceptions.py
@@ -1,3 +1,8 @@
 class UnknownWebsiteScraperException(Exception):
     def __init__(self, msg: str):
         self.msg = msg
+
+
+class FailedGetURLException(Exception):
+    def __init__(self, msg: str):
+        self.msg = msg
diff --git a/scrapers/websites_scrapers/website_scraper_base.py b/scrapers/websites_scrapers/website_scraper_base.py
@@ -1,15 +1,14 @@
 from datetime import datetime
 from typing import List
 
+from db_driver.db_objects.article import Article
 
-class WebsiteScraperBase:
-    def get_home_page(self):
-        raise NotImplementedError
 
-    def get_new_article_urls_from_home_page(self):
+class WebsiteScraperBase:
+    def _get_home_page(self):
         raise NotImplementedError
 
-    def get_to_article_page(self, url: str):
+    def _get_article_page(self, url: str):
         raise NotImplementedError
 
     def _get_article_title(self) -> str:
@@ -32,3 +31,9 @@ def _get_article_image_urls(self) -> List[str]:
     def _get_article_state(self) -> str:
         # default return - 'global'
         raise NotImplementedError
+
+    def get_new_article_urls_from_home_page(self) -> List[str]:
+        raise NotImplementedError
+
+    def get_article(self, url: str) -> Article:
+        raise NotImplementedError

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+class DBConsts:`
	`2`	`+ TASKS_TABLE_NAME = "tasks"`
	`3`	`+ ARTICLE_TABLE_NAME = "articles"`