弹幕新玩法,热门直播弹幕同时看,异步协程改写开源弹幕爬虫包的尝试

效果图
  • 上图为1月22号晚上战旗平台热门直播的弹幕消息截图
    一行中为 直播房间标题-[发弹幕者昵称]--弹幕内容
效果图2

开源包

原理

  • 原理上,都是先从直播房间页面或者相应api接口获取主播信息、弹幕服务器信息、弹幕认证服务器信息等,然后通过socket连接,维持心跳包并持续获取弹幕数据。不过都是使用了多线程的方式。以littlecodersh的代码为例,他的结构大概是由使用者提供的直播页url启动一个弹幕消息处理线程(处理的是已经解析完毕结构化好的弹幕消息,实际是一个接口)和一个相应平台的客户端线程,客户端线程初始化一个socket并维护两个子线程,这两个子线程共用同一个socket分别发送心跳包和接收弹幕消息原始数据,在接收消息的线程里同时完成弹幕消息的解析和结构化,并放入队列,提供给一开始的弹幕消息处理线程,让其进一步对弹幕进行处理。但是多个房间的弹幕要开多个进程,也可以对源码相应修改,采取多开客户端线程的方式,在同一个进程里进行处理。

应用场景与异步修改尝试

  • 考虑到应用场景,目标是要收集某直播平台的热门节目的优质片段,首先考虑优质片段如何判断,直播弹幕量的突然上升(当然也可能是主播在抽奖。。)在很大程度上是直播中特殊情况发生的信号,于是通过实时监测弹幕信息发现弹幕变化节点就解决了优质片段的初步筛选工作,同时还可以根据弹幕消息处理出当前观众热词,方便进一步加工。于是需要同时获取某平台上百台直播节目,多平台的话就要更多,使用python的话或许异步协程在这里更为适合。这里我将littlecodersh的线程代码改写为异步(感谢littlecodersh同学),使用一个eventloop控制器,管理所有的socket异步事件,每个socket对应一个直播弹幕的获取,代码的结构看上去感觉也更易理解一点。测试同时接收200台时占用内存约为30M(python解释器占大概10M多点),流量约为400Kb/s。这里只是改写了战旗平台的代码做了一下尝试,很多地方处理的也比较粗糙,可以改进的地方比较多,欢迎指点交流。
  • 首先从战旗平台直播列表页面获取当前热门直播,直接使用以下代码爬取热门列表到txt文件保存,这里只是爬了第一页的。
import requests
from bs4 import BeautifulSoup
#
r = requests.get('https://www.zhanqi.tv/lives')
soup = BeautifulSoup(r.content, "lxml") # 可以不要lxml
urlist = [i.get('href') for i in soup.select("#hotList li a")]
with open('urlist3.txt', 'a') as f:
    for i in urlist:
        f.write(
            ''.join(['https://www.zhanqi.tv', i, '\n'])
        )
  • 然后使用以下代码连接txt文件中的所有房间,python zhanqidanmu.py即可执行。
    其中socket接收到了弹幕消息的原始数据后,需要对其进行较为耗时的数据解析工作,即msgHandleBlock方法,这里采取维护一个线程池(进程池也可,只需将Thread改为Process)的方法,将该耗时工作委托给另一个线程处理。对初步处理完成的数据这里只是简单的打印到控制台,可以稍作修改直接存入数据库,也可留出接口。
# zhanqidanmu.py
import abc
import asyncio
import socket
import concurrent.futures

import sys
import json
import time
import re
import base64
from struct import pack
import requests

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'


async def testMemory():
    # 测试内存占用
    import os
    import psutil
    while True:
        process = psutil.Process(os.getpid())
        print(os.getpid(), '占用',
              str(process.memory_info().rss / 1024 / 1024))
        await asyncio.sleep(10)


class DanMuClientManager():

    def __init__(self, loop=None, executor=None):
        self.loop = loop or asyncio.get_event_loop()
        # 私有一个事件循环控制器
        self.executor = executor or concurrent.futures.ThreadPoolExecutor(
            max_workers=2,
        )
        # 私有一个处理cpu占用型任务的线程池
        self._urltextProcess()
        # 得到需要连接的直播房间列表

    def _urltextProcess(self):
        with open('urlist3.txt', 'r') as f:
            self.url = f.readlines()

    def start(self):

        clientList = [ZhanQiDanMuClient(url.strip(), self.loop, self.executor)
                      for url in self.url if url != '\n']
        # 由url列表实例化客户端生成列表
        initTasks = []
        clients = []
        for c in clientList:
            try:
                danmuSocketInfo, roomInfo = c.prepare_env()
                # 完成准备工作,生成弹幕服务器信息和房间信息
            except:
                print("某主播不在线-", c.url)
            else:
                clients.append(c)
                initTasks.append(c.init_socket(danmuSocketInfo, roomInfo))
                # 将所有的socket初始连接协程放入队列
        self.loop.run_until_complete(asyncio.gather(*initTasks))
        # 等待连接完成
        print('连接弹幕服务器完成 *', len(initTasks))
        danmuTasks = [testMemory()]
        for c in clients:
            danmuTasks.extend([
                asyncio.ensure_future(c.heartCoro()),
                asyncio.ensure_future(c.danmuCoro()),
            ])
        # 生成所有的心跳协程和弹幕消息接收协程构成的任务列表
        try:
            self.loop.run_until_complete(asyncio.gather(*danmuTasks))
            # 持续接收弹幕消息
        except KeyboardInterrupt:
            print('关闭')
        finally:
            # print(">> Cancelling tasks now")
            # for task in asyncio.Task.all_tasks():
            #     task.cancel()
            # self.loop.run_until_complete(asyncio.sleep(1))
            # print(">> Done cancelling tasks")
            self.loop.close()


class AbstractDanMuClient(metaclass=abc.ABCMeta):
    '''主要流程:
       先获取直播状态,
       然后获取弹幕服务器地址与房间信息,
       之后开启socket连接并认证,
       最后持续发送心跳包和接收弹幕消息'''

    def __init__(self, url, loop, executor):
        self.url = url
        self.loop = loop
        self.executor = executor
        self.sock = None

    @abc.abstractmethod
    def _get_live_status(self):
        '''由直播网页获取主播直播状态'''
        return False

    @abc.abstractmethod
    def _prepare_env(self):
        '''获取弹幕服务器ip和端口号以及房间信息用以认证'''
        return ('0.0.0.0', 80), {}
        # danmuSocketInfo, roomInfo

    def prepare_env(self):
        '''调用self._get_live_status和self._prepare_env完成准备工作'''
        if not self._get_live_status():
            raise Exception(u"直播未开始")
        return self._prepare_env()

    @abc.abstractmethod
    async def _init_socket(self, roomInfo):
        '''具体的socket连接到房间的方式,由子类重写,
           应使用await self.loop.sock_sendall方式发送数据'''
        pass

    async def init_socket(self, danmuSocketInfo, roomInfo):
        '''初始化socket并调用self.init_socket方法'''
        self.sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.sock.setblocking(False)
        try:
            await self.loop.sock_connect(self.sock, danmuSocketInfo)
            # ConnectionRefusedError
        except Exception as e:
            print(e)
        else:
            await self._init_socket(roomInfo)

    @abc.abstractmethod
    async def heartCoro(self):
        '''每隔x秒发送心跳包维持websocket连接'''
        pass

    async def danmuCoro(self):
        '''弹幕处理协程,异步接收弹幕数据
           并使用self.msgHandleBlock在另一线程/进程处理数据
           因为数据流是单向的所以即使是进程也不麻烦'''
        while True:
            content = await self.loop.sock_recv(self.sock, 1024)
            # sock_recv(sock[, 1024]) 接收字节不可以省略
            self.loop.run_in_executor(self.executor,
                                      self.msgHandleBlock, content)

    @abc.abstractmethod
    def msgHandleBlock(self, content):
        '''阻塞耗时的弹幕数据处理'''
        pass


def pp(msg):
    print(msg.encode(sys.stdin.encoding, 'ignore').
          decode(sys.stdin.encoding))


class ZhanQiDanMuClient(AbstractDanMuClient):
# 其它平台类似修改即可
    def _get_live_status(self):
        url = 'https://www.zhanqi.tv/' + \
              self.url.split('/')[-1] or self.url.split('/')[-2]
        r = requests.get(url, headers={'User-Agent': USER_AGENT})
        if r.url == 'https://www.zhanqi.tv/':
            return False
        rawJson = re.findall('oRoom = (.*);[\s\S]*?window.', r.text)
        if not rawJson:
            rawJson = re.findall('aVideos = (.*);[\s\S]*?oPageConfig.', r.text)
        self.roomInfo = json.loads(rawJson[0])
        # if isinstance(self.roomInfo, list):
        #     self.roomInfo = self.roomInfo[0]
        # print(self.roomInfo['title'])
        return self.roomInfo['status'] == '4'

    def _prepare_env(self):
        serverAddress = json.loads(base64.b64decode(
            self.roomInfo['flashvars']['Servers']).decode('ascii'))['list'][0]
        serverAddress = (serverAddress['ip'], serverAddress['port'])
        url = '%s/api/public/room.viewer' % 'https://www.zhanqi.tv'
        params = {
            'uid': self.roomInfo['uid'],
            '_t': int(time.time() / 60), }
        roomInfo = requests.get(url, params).json()
        roomInfo['id'] = int(self.roomInfo['id'])
        # print(serverAddress, roomInfo)
        return serverAddress, roomInfo

    async def _init_socket(self, roomInfo):
        data = {
            'nickname': '',
            'roomid': int(roomInfo['id']),
            'gid': roomInfo['data']['gid'],
            'sid': roomInfo['data']['sid'],
            'ssid': roomInfo['data']['sid'],
            'timestamp': roomInfo['data']['timestamp'],
            'cmdid': 'loginreq',
            'develop_date': '2015-06-07',
            'fhost': 'zhanqi.tool',
            'fx': 0,
            't': 0,
            'thirdacount': '',
            'uid': 0,
            'ver': 2,
            'vod': 0,
        }
        data = json.dumps(data, separators=(',', ':'))
        await self.loop.sock_sendall(self.sock,
                                     b'\xbb\xcc' + b'\x00' * 4 +
                                     pack('i', len(data)) + b'\x10\x27' +
                                     data.encode('ascii'))

    async def heartCoro(self):
        while True:
            await self.loop.sock_sendall(self.sock,
                                         b'\xbb\xcc' +
                                         b'\x00' * 8 + b'\x59\x27')
            await asyncio.sleep(3)

    def msgHandleBlock(self, content):
        for msg in re.findall(b'\x10\x27({[^\x00]*})\x0a', content):
            try:
                msg = json.loads(msg.decode('utf8', 'ignore'))
                msg['NickName'] = (msg.get('fromname', '') or
                                   msg.get('data', {}).get('nickname', ''))
                msg['Content'] = msg.get('content', '')
                if 'chatm' in msg.get('cmdid', ''):
                    msg['MsgType'] = 'danmu'
                    pp("{0:<30} - [{1}] {2:->10}".format(
                        self.roomInfo['title'],
                        msg['NickName'], msg['Content']))
                    # 格式化输出-参考http://www.crifan.com/python_string_format_fill_with_chars_and_set_alignment/
                elif 'Gift' in msg.get('cmdid', ''):
                    msg['MsgType'] = 'gift'
                else:
                    msg['MsgType'] = 'other'
            except Exception as e:
                print('消息解析出现错误')
            else:
                # self.msgPipe.append(msg)
                pass


if __name__ == '__main__':
    cm = DanMuClientManager()
    cm.start()

其它

executor = concurrent.futures.ProcessPoolExecutor(max_workers=3,) 
loop.run_in_executor(executor, task, args)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,444评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,867评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,157评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,312评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,673评论 3 289
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,802评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,010评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,743评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,470评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,696评论 2 250
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,187评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,538评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,188评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,127评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,902评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,889评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,741评论 2 274

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,582评论 25 707
  • 我喜欢雨,在我儿时的记忆里总有一个有雨的场景!窗外的雨淅沥淅沥的下着,屋檐的雨珠敲着优美的旋律,我依偎在妈妈的怀里...
    倚楼风吹雨阅读 339评论 2 6
  • 本次学习内容: 服装: T-shirt, pants, shorts, skirt, dress, shirt, ...
    TimmySHENX阅读 240评论 0 0
  • 我们了解了提升者和压低者,这两个概念。 看似,好像也没有什么吗!在仔细想一想,生活中为什么有的人他具有有影响力的人...
    听雨廖哥阅读 637评论 0 0
  • 阿姨喂哟 捉也嘛3嘞 空你一句话 微笑uc邮资u 阿拉大娃工地嘞是的嘞s
    华胥氏公子阅读 238评论 1 0