Hive中抽取连续多天登录用户 - 军军小站|张军博客

昨天群上有人发个阿里的面试题，题目描述大概如下：

数据源：用户登录表，只有俩个字段，uid和dt

试用HQL抽取出连续登录了K天的用户uid

第一个想法就是直接用一个UDF解决，按uid分组，把dt收集起来然后在UDF里面判断是否满足条件

      
        SELECT
      
      
        
    uid,
    isExist(collect_set(dt), k) flag

      
      
        FROM
      
      
        
    table_name

      
      
        GROUP
      
      
        BY
      
      
        
    uid

      
      
        HAVING
      
      
        
    flag 
      
      
        =
      
      
        1
      
      ;

其中isExist的逻辑是判断collect_set中是否存在k个连续的值

这种方法简单明了，但是需要额外的写一个UDF，对于不懂JAVA的来说确实比较麻烦

今天群里有个神人给出了一种新的解决思路，十分完美的解决了，下面是具体代码

      
        SELECT
      
      
         
    uid, 
      
      
        MAX
      
      (dt) 
      
        -
      
      
        MIN
      
      
        (dt) diff, COLLECT_set (dt) 

      
      
        FROM
      
      
        
    (
      
      
        SELECT
      
      
         
        a.uid, a.dt, dt 
      
      
        -
      
      
         rn num 
    
      
      
        FROM
      
      
        
        (
      
      
        SELECT
      
      
         
            uid, dt, row_number () 
      
      
        over
      
       (PARTITION 
      
        BY
      
      
         uid 
        
      
      
        ORDER
      
      
        BY
      
      
         dt) rn 
        
      
      
        FROM
      
      
        
            table_name
        
      
      
        GROUP
      
      
        BY
      
      
         uid, dt) a) a 

      
      
        GROUP
      
      
        BY
      
       uid, num

该思路首先利用窗口函数以uid分组然后按照dt排序给出每个dt在排序中的位置，然后用求出dt与位置的差（记为num)

最后按照uid和num做一个聚合，容易发现同一个num组内的dt是连续的值

然后直接计数(count(*))就可以得出结果了

上面的代码只是为了更加方便看到输出的结果正确性，输出结果如下：

      
        UID        DIFF    DT_ARRAY

      
      
        1043736
      
      
        3.0
      
          ｛
      
        20140815
      
      
        20140814
      
      
        20140813
      
      
        20140812
      
      
        ｝

      
      
        1043736
      
      
        0.0
      
          ｛
      
        20140818
      
      
        ｝

      
      
        1043736
      
      
        1.0
      
          ｛
      
        20140821
      
      
        20140820
      
      
        ｝

      
      
        1043844
      
      
        0.0
      
          ｛
      
        20140814
      
      
        ｝

      
      
        1044090
      
      
        1.0
      
          ｛
      
        20140812
      
      
        20140811
      
      
        ｝

      
      
        1044090
      
      
        2.0
      
          ｛
      
        20140816
      
      
        20140815
      
      
        20140817
      
      
        ｝

      
      
        1044090
      
      
        0.0
      
          ｛
      
        20140821
      
      
        ｝

      
      
        1044264
      
      
        0.0
      
          ｛
      
        20140810
      
      
        ｝

      
      
        1044264
      
      
        3.0
      
          ｛
      
        20140815
      
      
        20140814
      
      
        20140813
      
      
        20140812
      
      
        ｝

      
      
        1044264
      
      
        5.0
      
          ｛
      
        20140821
      
      
        20140820
      
      
        20140822
      
      
        20140819
      
      
        20140817
      
      
        20140818
      
      ｝

结果中uid = 1043736 的一共登录了7天，其中可以拆分成三个连续的登录模块，分别是连续登录1天、2天和4天

Hive中抽取连续多天登录用户

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义