stats: add get_message_deltas method

2020-05-30 02:18:48 -04:00 · 2020-05-30 02:18:48 -04:00 · c63fb3d138
commit c63fb3d138
--- a/stats.py
+++ b/stats.py
@ -5,6 +5,7 @@ from io import BytesIO
 import argparse
 import inspect
 import re
 from datetime import timedelta
 import pandas as pd
 import seaborn as sns
@ -45,7 +46,8 @@ class StatsRunner(object):
                       'days': "get_counts_by_day",
                       'week': "get_week_by_hourday",
                       'history': "get_message_history",
-                       'corr': "get_user_correlation"}
+                       'corr': "get_user_correlation",
                       'delta': "get_message_deltas"}
    def __init__(self, engine: Engine, tz: str = 'America/Toronto'):
        self.engine = engine
@ -531,6 +533,79 @@ class StatsRunner(object):
        return f"**User Correlations for {escape_markdown(user[1])}**\n```\n{text}\n```", None
    def get_message_deltas(self, start: str = None, end: str = None, n: int = 10, thresh: int = 500,
                           autouser=None, **kwargs) -> Tuple[str, None]:
        """
        Return the median difference in message time between you and other users.
        :param start: Start timestamp (e.g. 2019, 2019-01, 2019-01-01, "2019-01-01 14:21")
        :param end: End timestamp (e.g. 2019, 2019-01, 2019-01-01, "2019-01-01 14:21")
        :param n: Show n highest and lowest correlation scores
        :param thresh: Only consider users with at least this many message group pairs with you
        """
        user: Tuple[int, str] = kwargs['user']
        query_conditions = []
        sql_dict = {}
        if start:
            sql_dict['start_dt'] = pd.to_datetime(start)
            query_conditions.append("date >= %(start_dt)s")
        if end:
            sql_dict['end_dt'] = pd.to_datetime(end)
            query_conditions.append("date < %(end_dt)s")
        query_where = ""
        if query_conditions:
            query_where = f"AND {' AND '.join(query_conditions)}"
        if n <= 0:
            raise HelpException(f'n must be greater than 0')
        if thresh < 0:
            raise HelpException(f'n cannot be negative')
        def fetch_mean_delta(me: int, other: int, where: str, sql_dict: dict) -> Tuple[timedelta, int]:
            query = f"""
                    select percentile_cont(0.5) within group (order by t_delta), count(t_delta)
                    from(
                        select start - lag("end", 1) over (order by start) as t_delta
                        from (
                                 select min(date) as start, max(date) as "end"
                                 from (select date, from_user,
                                              (dense_rank() over (order by date) -
                                               dense_rank() over (partition by from_user order by date)
                                                  ) as grp
                                       from messages_utc
                                       where from_user in (%(me)s, %(other)s) {where}
                                       order by date
                                      ) t
                                 group by from_user, grp
                                 order by start
                        ) t1
                    ) t2;
                    """
            sql_dict['me'] = me
            sql_dict['other'] = other
            with self.engine.connect() as con:
                result = con.execute(query, sql_dict)
            output: Tuple[timedelta, int] = result.fetchall()[0]
            return output
        results = {other: fetch_mean_delta(user[0], other, query_where, sql_dict) for other in self.users
                   if user[0] != other}
        user_deltas = {self.users[other][0]: pd.to_timedelta(result[0]) for other, result in results.items() if result[1] > thresh}
        me = pd.Series(user_deltas).sort_values()
        me = me.apply(lambda x: x.round('1s'))
        text = me.iloc[:n].to_string(header=False, index=True)
        return f"**Median message delays for {escape_markdown(user[1])} and:**\n```\n{text}\n```", None
 def get_parser(runner: StatsRunner) -> InternalParser:
    parser = InternalParser(prog="/stats")