[rtl2] Fix extraction for test_RTL2_1

2024-11-18 07:01:45 +00:00 · 2015-08-21 13:20:32 +08:00 · 2015-08-21 13:20:32 +08:00 · 5e1a5ac8de
commit 5e1a5ac8de
parent 9eb4ab6ad9
1 changed files with 16 additions and 4 deletions
--- a/youtube_dl/extractor/rtl2.py
+++ b/youtube_dl/extractor/rtl2.py
@ -1,6 +1,7 @@
 # encoding: utf-8
 from __future__ import unicode_literals
 import re
 from .common import InfoExtractor
@ -28,6 +29,10 @@ class RTL2IE(InfoExtractor):
            'title': 'Anna erwischt Alex!',
            'description': 'Anna ist Alex\' Tochter bei Köln 50667.'
        },
        'params': {
            # rtmp download
            'skip_download': True,
        },
    }]
    def _real_extract(self, url):
@ -38,10 +43,17 @@ class RTL2IE(InfoExtractor):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)
-        vico_id = self._html_search_regex(
+        mobj = re.search(
-            r'vico_id\s*:\s*([0-9]+)', webpage, 'vico_id')
+            r'<div[^>]+data-collection="(?P<vico_id>\d+)"[^>]+data-video="(?P<vivi_id>\d+)"',
-        vivi_id = self._html_search_regex(
+            webpage)
-            r'vivi_id\s*:\s*([0-9]+)', webpage, 'vivi_id')
+        if mobj:
            vico_id = mobj.group('vico_id')
            vivi_id = mobj.group('vivi_id')
        else:
            vico_id = self._html_search_regex(
                r'vico_id\s*:\s*([0-9]+)', webpage, 'vico_id')
            vivi_id = self._html_search_regex(
                r'vivi_id\s*:\s*([0-9]+)', webpage, 'vivi_id')
        info_url = 'http://www.rtl2.de/video/php/get_video.php?vico_id=' + vico_id + '&vivi_id=' + vivi_id
        info = self._download_json(info_url, video_id)