projects-jenz/event_notification/python/scrape_event.py

import scrapy
import traceback
import warnings
warnings.filterwarnings("ignore", category=scrapy.exceptions.ScrapyDeprecationWarning)
from scrapy_settings import EXT_SETTINGS
from pprint import pprint

class unloze_spider(scrapy.Spider):
    """
    Main unloze event scraper 
    """

    custom_settings = EXT_SETTINGS
    
    def __init__(self, item):
        self.url = item["url"]
        self.item = item

    def start_requests(self):
        request = scrapy.Request(
            url = self.url,
            callback = self.parse
        )
        yield request

    def parse(self, response):
        """
        Parsing content in the events sections
        """
        newest_thread = None
        threads = response.xpath("//div[@class='structItem-title']/@uix-href").extract()
        for thread in threads:
            if "poll" in thread.lower() or "nomination-thread" in thread.lower():
                continue
            newest_thread = thread
            break
        
        if newest_thread is None:
            print("no thread found. url: ", response.url)
            import sys
            sys.exit(1)
        request = scrapy.Request(
            url = "https://unloze.com" + newest_thread,
            callback = self.parse2
        )
        yield request
        
    def parse2(self, response):
        """
        Parsing content on the actual newest event thread
        """
        try:
            event_title = response.url.rsplit(".", 1)[0].rsplit("/", 1)[1]
            event_server = ""
            event_maps = ""
            #several event managers do the threads differently in terms of highlighting and marks, they dont use or understand standardization welp
            #as long as no random nigger types TL;DR in their post i guess this will work
            skipping = len(response.xpath("//*[contains(text(),'TL;DR')]").extract())
            next_event_maps = False
            next_event_date = False
            next_event_server = False
            next_event_time = False
            next_event_reward = False
            event_date = None
            event_reward = ""
            event_time = ""
            for r in response.xpath("//*[contains(text(),'TL;DR')]/../../..//text()").extract():
                if "\n" in r or len(r) < 4 or "\t" in r or skipping > 0:
                    if r.lower() == "tl;dr":
                        #skipping -= 1
                        skipping = -1
                    continue
                if "server" in r.lower() and "time" not in r.lower() and next_event_server is not None:
                    next_event_server = True
                    continue
                if next_event_server:
                    event_server += r
                    if ":270" in r: #server port generally
                        next_event_server = None

                if "maps" in r.lower() and "rewards" not in r.lower():
                    next_event_maps = True
                    continue

                if "date" in r.lower():
                    next_event_maps = False
                    next_event_date = True
                    continue

                if next_event_maps:
                    if r.startswith('ze_') or r.startswith('mg_') or r.startswith('de_') or r.startswith('zr_'):
                        event_maps += f"{r} "

                if next_event_date:
                    next_event_date= False
                    event_date = r
                if "time" in r.lower() and "server" not in r.lower():
                    next_event_time = True
                    continue
                if next_event_time and event_time == "":
                    event_time = r
                    next_event_time = False

                if "rewards" in r.lower():
                    next_event_reward = True
                    #print("rewards: ", r)
                    continue
                if next_event_reward and event_reward == "":
                    #print("next_event_reward: ", r)
                    event_reward = r
                    next_event_reward = False

            
            self.item["event_title"] = event_title
            self.item["event_date"] = event_date
            self.item["event_time"] = event_time
            self.item["event_server"] = event_server
            self.item["event_maps"] = event_maps
            self.item["event_reward"] = event_reward
            self.item["event_url"] = response.url

        except Exception:
            error_msg = traceback.format_exc()
            print("traceback msg: ", error_msg)
            print("url: ", response.url)
            import sys
            sys.exit(1)
        
        #pprint(self.item)
        return self.item
initial release of event notifier 2022-06-19 13:40:27 +02:00			`import scrapy`
			`import traceback`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`import warnings`
			`warnings.filterwarnings("ignore", category=scrapy.exceptions.ScrapyDeprecationWarning)`
initial release of event notifier 2022-06-19 13:40:27 +02:00			`from scrapy_settings import EXT_SETTINGS`
			`from pprint import pprint`

			`class unloze_spider(scrapy.Spider):`
			`"""`
			`Main unloze event scraper`
			`"""`

			`custom_settings = EXT_SETTINGS`

			`def __init__(self, item):`
			`self.url = item["url"]`
			`self.item = item`

			`def start_requests(self):`
			`request = scrapy.Request(`
			`url = self.url,`
			`callback = self.parse`
			`)`
			`yield request`

			`def parse(self, response):`
			`"""`
			`Parsing content in the events sections`
			`"""`
			`newest_thread = None`
			`threads = response.xpath("//div[@class='structItem-title']/@uix-href").extract()`
			`for thread in threads:`
			`if "poll" in thread.lower() or "nomination-thread" in thread.lower():`
			`continue`
			`newest_thread = thread`
			`break`

			`if newest_thread is None:`
			`print("no thread found. url: ", response.url)`
			`import sys`
			`sys.exit(1)`
			`request = scrapy.Request(`
			`url = "https://unloze.com" + newest_thread,`
			`callback = self.parse2`
			`)`
			`yield request`

			`def parse2(self, response):`
			`"""`
			`Parsing content on the actual newest event thread`
			`"""`
			`try:`
			`event_title = response.url.rsplit(".", 1)[0].rsplit("/", 1)[1]`
			`event_server = ""`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`event_maps = ""`
			`#several event managers do the threads differently in terms of highlighting and marks, they dont use or understand standardization welp`
			`#as long as no random nigger types TL;DR in their post i guess this will work`
			`skipping = len(response.xpath("//*[contains(text(),'TL;DR')]").extract())`
			`next_event_maps = False`
			`next_event_date = False`
			`next_event_server = False`
			`next_event_time = False`
			`next_event_reward = False`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`event_date = None`
fixed rewards and maybe time too? 2024-06-08 22:20:57 +02:00			`event_reward = ""`
			`event_time = ""`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`for r in response.xpath("//*[contains(text(),'TL;DR')]/../../..//text()").extract():`
			`if "\n" in r or len(r) < 4 or "\t" in r or skipping > 0:`
			`if r.lower() == "tl;dr":`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`#skipping -= 1`
			`skipping = -1`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`continue`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`if "server" in r.lower() and "time" not in r.lower() and next_event_server is not None:`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`next_event_server = True`
initial release of event notifier 2022-06-19 13:40:27 +02:00			`continue`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`if next_event_server:`
initial release of event notifier 2022-06-19 13:40:27 +02:00			`event_server += r`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`if ":270" in r: #server port generally`
			`next_event_server = None`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00
			`if "maps" in r.lower() and "rewards" not in r.lower():`
			`next_event_maps = True`
			`continue`

			`if "date" in r.lower():`
			`next_event_maps = False`
			`next_event_date = True`
			`continue`

			`if next_event_maps:`
updated scrapy spider again 2024-04-24 13:35:52 +02:00			`if r.startswith('ze_') or r.startswith('mg_') or r.startswith('de_') or r.startswith('zr_'):`
			`event_maps += f"{r} "`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00
			`if next_event_date:`
			`next_event_date= False`
initial release of event notifier 2022-06-19 13:40:27 +02:00			`event_date = r`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`if "time" in r.lower() and "server" not in r.lower():`
			`next_event_time = True`
			`continue`
fixed rewards and maybe time too? 2024-06-08 22:20:57 +02:00			`if next_event_time and event_time == "":`
changed posting events slightly to be bold, updated pipeline to not accidentally delete wrong event, updated scraper to skip leader field but also handle if its not present at all 2022-06-20 21:01:10 +02:00			`event_time = r`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`next_event_time = False`
initial release of event notifier 2022-06-19 13:40:27 +02:00
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`if "rewards" in r.lower():`
			`next_event_reward = True`
fixed rewards and maybe time too? 2024-06-08 22:20:57 +02:00			`#print("rewards: ", r)`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`continue`
fixed rewards and maybe time too? 2024-06-08 22:20:57 +02:00			`if next_event_reward and event_reward == "":`
			`#print("next_event_reward: ", r)`
added delay for running commands in rcon channel, updated scraping to be even more generic. 2022-06-25 13:40:30 +02:00			`event_reward = r`
			`next_event_reward = False`
initial release of event notifier 2022-06-19 13:40:27 +02:00
updated scrapy spider again 2024-04-24 13:35:52 +02:00
initial release of event notifier 2022-06-19 13:40:27 +02:00			`self.item["event_title"] = event_title`
			`self.item["event_date"] = event_date`
			`self.item["event_time"] = event_time`
			`self.item["event_server"] = event_server`
			`self.item["event_maps"] = event_maps`
			`self.item["event_reward"] = event_reward`
			`self.item["event_url"] = response.url`

			`except Exception:`
			`error_msg = traceback.format_exc()`
			`print("traceback msg: ", error_msg)`
			`print("url: ", response.url)`
			`import sys`
			`sys.exit(1)`

			`#pprint(self.item)`
fixed rewards and maybe time too? 2024-06-08 22:20:57 +02:00			`return self.item`