[WasdTV] Add extractor (#3045 )

Closes #3041 Authored by: un-def, hatienl0i261299
[viki] Don't attempt to modify URLs with signature (#3222 )
2024-11-09 19:00:39 +00:00 · 2022-03-27 20:27:41 -07:00 · 2022-03-27 20:23:44 -07:00 · 2022-03-27 20:21:42 -07:00 · 2022-03-28 08:45:23 +05:30 · 2022-03-28 08:25:04 +05:30
8 changed files with 237 additions and 48 deletions
--- a/yt_dlp/YoutubeDL.py
+++ b/yt_dlp/YoutubeDL.py
@ -65,6 +65,7 @@ from .utils import (
    ExistingVideoReached,
    expand_path,
    ExtractorError,
+    filter_dict,
    float_or_none,
    format_bytes,
    format_field,
@ -1574,13 +1575,9 @@ class YoutubeDL(object):
            if not info:
                return info

-            force_properties = dict(
-                (k, v) for k, v in ie_result.items() if v is not None)
-            for f in ('_type', 'url', 'id', 'extractor', 'extractor_key', 'ie_key'):
-                if f in force_properties:
-                    del force_properties[f]
            new_result = info.copy()
-            new_result.update(force_properties)
+            new_result.update(filter_dict(ie_result, lambda k, v: (
+                v is not None and k not in {'_type', 'url', 'id', 'extractor', 'extractor_key', 'ie_key'})))

            # Extracted info may not be a video result (i.e.
            # info.get('_type', 'video') != video) but rather an url or
@ -1818,7 +1815,7 @@ class YoutubeDL(object):
        ie_result['entries'] = playlist_results

        # Write the updated info to json
-        if _infojson_written and self._write_info_json(
+        if _infojson_written is True and self._write_info_json(
                'updated playlist', ie_result,
                self.prepare_filename(ie_copy, 'pl_infojson'), overwrite=True) is None:
            return
@ -3789,7 +3786,7 @@ class YoutubeDL(object):
        return encoding

    def _write_info_json(self, label, ie_result, infofn, overwrite=None):
-        ''' Write infojson and returns True = written, False = skip, None = error '''
+        ''' Write infojson and returns True = written, 'exists' = Already exists, False = skip, None = error '''
        if overwrite is None:
            overwrite = self.params.get('overwrites', True)
        if not self.params.get('writeinfojson'):
@ -3801,14 +3798,15 @@ class YoutubeDL(object):
            return None
        elif not overwrite and os.path.exists(infofn):
            self.to_screen(f'[info] {label.title()} metadata is already present')
-        else:
-            self.to_screen(f'[info] Writing {label} metadata as JSON to: {infofn}')
-            try:
-                write_json_file(self.sanitize_info(ie_result, self.params.get('clean_infojson', True)), infofn)
-            except (OSError, IOError):
-                self.report_error(f'Cannot write {label} metadata to JSON file {infofn}')
-                return None
-        return True
+            return 'exists'
+
+        self.to_screen(f'[info] Writing {label} metadata as JSON to: {infofn}')
+        try:
+            write_json_file(self.sanitize_info(ie_result, self.params.get('clean_infojson', True)), infofn)
+            return True
+        except (OSError, IOError):
+            self.report_error(f'Cannot write {label} metadata to JSON file {infofn}')
+            return None

    def _write_description(self, label, ie_result, descfn):
        ''' Write description and returns True = written, False = skip, None = error '''
--- a/yt_dlp/extractor/bilibili.py
+++ b/yt_dlp/extractor/bilibili.py
@ -15,6 +15,7 @@ from ..compat import (
 )
 from ..utils import (
    ExtractorError,
+    filter_dict,
    int_or_none,
    float_or_none,
    mimetype2ext,
@ -755,15 +756,21 @@ class BiliIntlBaseIE(InfoExtractor):
            for i, line in enumerate(json['body']) if line.get('content'))
        return data

-    def _get_subtitles(self, ep_id):
-        sub_json = self._call_api(f'/web/v2/subtitle?episode_id={ep_id}&platform=web', ep_id)
+    def _get_subtitles(self, *, ep_id=None, aid=None):
+        sub_json = self._call_api(
+            '/web/v2/subtitle', ep_id or aid, note='Downloading subtitles list',
+            errnote='Unable to download subtitles list', query=filter_dict({
+                'platform': 'web',
+                'episode_id': ep_id,
+                'aid': aid,
+            }))
        subtitles = {}
        for sub in sub_json.get('subtitles') or []:
            sub_url = sub.get('url')
            if not sub_url:
                continue
            sub_data = self._download_json(
-                sub_url, ep_id, errnote='Unable to download subtitles', fatal=False,
+                sub_url, ep_id or aid, errnote='Unable to download subtitles', fatal=False,
                note='Downloading subtitles%s' % f' for {sub["lang"]}' if sub.get('lang') else '')
            if not sub_data:
                continue
@ -773,9 +780,14 @@ class BiliIntlBaseIE(InfoExtractor):
            })
        return subtitles

-    def _get_formats(self, ep_id):
-        video_json = self._call_api(f'/web/playurl?ep_id={ep_id}&platform=web', ep_id,
-                                    note='Downloading video formats', errnote='Unable to download video formats')
+    def _get_formats(self, *, ep_id=None, aid=None):
+        video_json = self._call_api(
+            '/web/playurl', ep_id or aid, note='Downloading video formats',
+            errnote='Unable to download video formats', query=filter_dict({
+                'platform': 'web',
+                'ep_id': ep_id,
+                'aid': aid,
+            }))
        video_json = video_json['playurl']
        formats = []
        for vid in video_json.get('video') or []:
@ -809,15 +821,15 @@ class BiliIntlBaseIE(InfoExtractor):
        self._sort_formats(formats)
        return formats

-    def _extract_ep_info(self, episode_data, ep_id):
+    def _extract_video_info(self, video_data, *, ep_id=None, aid=None):
        return {
-            'id': ep_id,
-            'title': episode_data.get('title_display') or episode_data['title'],
-            'thumbnail': episode_data.get('cover'),
+            'id': ep_id or aid,
+            'title': video_data.get('title_display') or video_data.get('title'),
+            'thumbnail': video_data.get('cover'),
            'episode_number': int_or_none(self._search_regex(
-                r'^E(\d+)(?:$| - )', episode_data.get('title_display'), 'episode number', default=None)),
-            'formats': self._get_formats(ep_id),
-            'subtitles': self._get_subtitles(ep_id),
+                r'^E(\d+)(?:$| - )', video_data.get('title_display') or '', 'episode number', default=None)),
+            'formats': self._get_formats(ep_id=ep_id, aid=aid),
+            'subtitles': self._get_subtitles(ep_id=ep_id, aid=aid),
            'extractor_key': BiliIntlIE.ie_key(),
        }

@ -854,7 +866,7 @@ class BiliIntlBaseIE(InfoExtractor):


 class BiliIntlIE(BiliIntlBaseIE):
-    _VALID_URL = r'https?://(?:www\.)?bili(?:bili\.tv|intl\.com)/(?:[a-z]{2}/)?play/(?P<season_id>\d+)/(?P<id>\d+)'
+    _VALID_URL = r'https?://(?:www\.)?bili(?:bili\.tv|intl\.com)/(?:[a-z]{2}/)?(play/(?P<season_id>\d+)/(?P<ep_id>\d+)|video/(?P<aid>\d+))'
    _TESTS = [{
        # Bstation page
        'url': 'https://www.bilibili.tv/en/play/34613/341736',
@ -889,24 +901,35 @@ class BiliIntlIE(BiliIntlBaseIE):
    }, {
        'url': 'https://www.biliintl.com/en/play/34613/341736',
        'only_matching': True,
+    }, {
+        # User-generated content (as opposed to a series licensed from a studio)
+        'url': 'https://bilibili.tv/en/video/2019955076',
+        'only_matching': True,
+    }, {
+        # No language in URL
+        'url': 'https://www.bilibili.tv/video/2019955076',
+        'only_matching': True,
    }]

    def _real_extract(self, url):
-        season_id, video_id = self._match_valid_url(url).groups()
+        season_id, ep_id, aid = self._match_valid_url(url).group('season_id', 'ep_id', 'aid')
+        video_id = ep_id or aid
        webpage = self._download_webpage(url, video_id)
        # Bstation layout
        initial_data = self._parse_json(self._search_regex(
-            r'window\.__INITIAL_DATA__\s*=\s*({.+?});', webpage,
+            r'window\.__INITIAL_(?:DATA|STATE)__\s*=\s*({.+?});', webpage,
            'preload state', default='{}'), video_id, fatal=False) or {}
-        episode_data = traverse_obj(initial_data, ('OgvVideo', 'epDetail'), expected_type=dict)
+        video_data = (
+            traverse_obj(initial_data, ('OgvVideo', 'epDetail'), expected_type=dict)
+            or traverse_obj(initial_data, ('UgcVideo', 'videoData'), expected_type=dict) or {})

-        if not episode_data:
+        if season_id and not video_data:
            # Non-Bstation layout, read through episode list
            season_json = self._call_api(f'/web/v2/ogv/play/episodes?season_id={season_id}&platform=web', video_id)
-            episode_data = next(
+            video_data = next(
                episode for episode in traverse_obj(season_json, ('sections', ..., 'episodes', ...), expected_type=dict)
-                if str(episode.get('episode_id')) == video_id)
-        return self._extract_ep_info(episode_data, video_id)
+                if str(episode.get('episode_id')) == ep_id)
+        return self._extract_video_info(video_data, ep_id=ep_id, aid=aid)


 class BiliIntlSeriesIE(BiliIntlBaseIE):
@ -934,7 +957,7 @@ class BiliIntlSeriesIE(BiliIntlBaseIE):
        series_json = self._call_api(f'/web/v2/ogv/play/episodes?season_id={series_id}&platform=web', series_id)
        for episode in traverse_obj(series_json, ('sections', ..., 'episodes', ...), expected_type=dict, default=[]):
            episode_id = str(episode.get('episode_id'))
-            yield self._extract_ep_info(episode, episode_id)
+            yield self._extract_video_info(episode, ep_id=episode_id)

    def _real_extract(self, url):
        series_id = self._match_id(url)
--- a/yt_dlp/extractor/common.py
+++ b/yt_dlp/extractor/common.py
@ -49,6 +49,7 @@ from ..utils import (
    error_to_compat_str,
    extract_attributes,
    ExtractorError,
+    filter_dict,
    fix_xml_ampersands,
    float_or_none,
    format_field,
@ -1588,7 +1589,7 @@ class InfoExtractor(object):
                    break
        traverse_json_ld(json_ld)

-        return dict((k, v) for k, v in info.items() if v is not None)
+        return filter_dict(info)

    def _search_nextjs_data(self, webpage, video_id, *, transform_source=None, fatal=True, **kw):
        return self._parse_json(
--- a/yt_dlp/extractor/extractors.py
+++ b/yt_dlp/extractor/extractors.py
@ -1977,6 +1977,11 @@ from .washingtonpost import (
    WashingtonPostIE,
    WashingtonPostArticleIE,
 )
+from .wasdtv import (
+    WASDTVStreamIE,
+    WASDTVRecordIE,
+    WASDTVClipIE,
+)
 from .wat import WatIE
 from .watchbox import WatchBoxIE
 from .watchindianporn import WatchIndianPornIE
--- a/yt_dlp/extractor/rai.py
+++ b/yt_dlp/extractor/rai.py
@ -11,6 +11,7 @@ from ..compat import (
 from ..utils import (
    determine_ext,
    ExtractorError,
+    filter_dict,
    find_xpath_attr,
    fix_xml_ampersands,
    GeoRestrictedError,
@ -110,11 +111,11 @@ class RaiBaseIE(InfoExtractor):
        if not audio_only:
            formats.extend(self._create_http_urls(relinker_url, formats))

-        return dict((k, v) for k, v in {
+        return filter_dict({
            'is_live': is_live,
            'duration': duration,
            'formats': formats,
-        }.items() if v is not None)
+        })

    def _create_http_urls(self, relinker_url, fmts):
        _RELINKER_REG = r'https?://(?P<host>[^/]+?)/(?:i/)?(?P<extra>[^/]+?)/(?P<path>.+?)/(?P<id>\d+)(?:_(?P<quality>[\d\,]+))?(?:\.mp4|/playlist\.m3u8).+?'
--- a/yt_dlp/extractor/viki.py
+++ b/yt_dlp/extractor/viki.py
@ -261,7 +261,7 @@ class VikiIE(VikiBaseIE):
        mpd_content = self._download_webpage(mpd_url, video_id, note='Downloading initial MPD manifest')
        mpd_url = self._search_regex(
            r'(?mi)<BaseURL>(http.+.mpd)', mpd_content, 'new manifest', default=mpd_url)
-        if 'mpdhd_high' not in mpd_url:
+        if 'mpdhd_high' not in mpd_url and 'sig=' not in mpd_url:
            # Modify the URL to get 1080p
            mpd_url = mpd_url.replace('mpdhd', 'mpdhd_high')
        formats = self._extract_mpd_formats(mpd_url, video_id)
--- a/yt_dlp/extractor/wasdtv.py
+++ b/yt_dlp/extractor/wasdtv.py
@ -0,0 +1,161 @@
+# coding: utf-8
+from __future__ import unicode_literals
+
+from .common import InfoExtractor
+from ..utils import (
+    ExtractorError,
+    int_or_none,
+    parse_iso8601,
+    traverse_obj,
+    try_get,
+)
+
+
+class WASDTVBaseIE(InfoExtractor):
+
+    def _fetch(self, path, video_id, description, query={}):
+        response = self._download_json(
+            f'https://wasd.tv/api/{path}', video_id, query=query,
+            note=f'Downloading {description} metadata',
+            errnote=f'Unable to download {description} metadata')
+        error = response.get('error')
+        if error:
+            raise ExtractorError(f'{self.IE_NAME} returned error: {error}', expected=True)
+        return response.get('result')
+
+    def _extract_thumbnails(self, thumbnails_dict):
+        return [{
+            'url': url,
+            'preference': index,
+        } for index, url in enumerate(
+            traverse_obj(thumbnails_dict, (('small', 'medium', 'large'),))) if url]
+
+    def _real_extract(self, url):
+        container = self._get_container(url)
+        stream = traverse_obj(container, ('media_container_streams', 0))
+        media = try_get(stream, lambda x: x['stream_media'][0])
+        if not media:
+            raise ExtractorError('Can not extract media data.', expected=True)
+        media_meta = media.get('media_meta')
+        media_url, is_live = self._get_media_url(media_meta)
+        video_id = media.get('media_id') or container.get('media_container_id')
+        formats, subtitles = self._extract_m3u8_formats_and_subtitles(media_url, video_id, 'mp4')
+        self._sort_formats(formats)
+        return {
+            'id': str(video_id),
+            'title': container.get('media_container_name') or self._og_search_title(self._download_webpage(url, video_id)),
+            'description': container.get('media_container_description'),
+            'thumbnails': self._extract_thumbnails(media_meta.get('media_preview_images')),
+            'timestamp': parse_iso8601(container.get('created_at')),
+            'view_count': int_or_none(stream.get('stream_current_viewers' if is_live else 'stream_total_viewers')),
+            'is_live': is_live,
+            'formats': formats,
+            'subtitles': subtitles,
+        }
+
+    def _get_container(self, url):
+        raise NotImplementedError('Subclass for get media container')
+
+    def _get_media_url(self, media_meta):
+        raise NotImplementedError('Subclass for get media url')
+
+
+class WASDTVStreamIE(WASDTVBaseIE):
+    IE_NAME = 'wasdtv:stream'
+    _VALID_URL = r'https?://wasd\.tv/(?P<id>[^/#?]+)$'
+    _TESTS = [{
+        'url': 'https://wasd.tv/24_7',
+        'info_dict': {
+            'id': '559738',
+            'ext': 'mp4',
+            'title': 'Live 24/7 Music',
+            'description': '24&#x2F;7 Music',
+            'timestamp': int,
+            'upload_date': r're:^\d{8}$',
+            'is_live': True,
+            'view_count': int,
+        },
+    }]
+
+    def _get_container(self, url):
+        nickname = self._match_id(url)
+        channel = self._fetch(f'channels/nicknames/{nickname}', video_id=nickname, description='channel')
+        channel_id = channel.get('channel_id')
+        containers = self._fetch(
+            'v2/media-containers', channel_id, 'running media containers',
+            query={
+                'channel_id': channel_id,
+                'media_container_type': 'SINGLE',
+                'media_container_status': 'RUNNING',
+            })
+        if not containers:
+            raise ExtractorError(f'{nickname} is offline', expected=True)
+        return containers[0]
+
+    def _get_media_url(self, media_meta):
+        return media_meta['media_url'], True
+
+
+class WASDTVRecordIE(WASDTVBaseIE):
+    IE_NAME = 'wasdtv:record'
+    _VALID_URL = r'https?://wasd\.tv/[^/#?]+/videos\?record=(?P<id>\d+)$'
+    _TESTS = [{
+        'url': 'https://wasd.tv/spacemita/videos?record=907755',
+        'md5': 'c9899dd85be4cc997816ff9f9ca516ce',
+        'info_dict': {
+            'id': '906825',
+            'ext': 'mp4',
+            'title': 'Музыкальный',
+            'description': 'md5:f510388d929ff60ae61d4c3cab3137cc',
+            'timestamp': 1645812079,
+            'upload_date': '20220225',
+            'thumbnail': r're:^https?://.+\.jpg',
+            'is_live': False,
+            'view_count': int,
+        },
+    }]
+
+    def _get_container(self, url):
+        container_id = self._match_id(url)
+        return self._fetch(
+            f'v2/media-containers/{container_id}', container_id, 'media container')
+
+    def _get_media_url(self, media_meta):
+        media_archive_url = media_meta.get('media_archive_url')
+        if media_archive_url:
+            return media_archive_url, False
+        return media_meta['media_url'], True
+
+
+class WASDTVClipIE(WASDTVBaseIE):
+    IE_NAME = 'wasdtv:clip'
+    _VALID_URL = r'https?://wasd\.tv/[^/#?]+/clips\?clip=(?P<id>\d+)$'
+    _TESTS = [{
+        'url': 'https://wasd.tv/spacemita/clips?clip=26804',
+        'md5': '818885e720143d7a4e776ff66fcff148',
+        'info_dict': {
+            'id': '26804',
+            'ext': 'mp4',
+            'title': 'Пуш флексит на голове стримера',
+            'timestamp': 1646682908,
+            'upload_date': '20220307',
+            'thumbnail': r're:^https?://.+\.jpg',
+            'view_count': int,
+        },
+    }]
+
+    def _real_extract(self, url):
+        clip_id = self._match_id(url)
+        clip = self._fetch(f'v2/clips/{clip_id}', video_id=clip_id, description='clip')
+        clip_data = clip.get('clip_data')
+        formats, subtitles = self._extract_m3u8_formats_and_subtitles(clip_data.get('url'), video_id=clip_id, ext='mp4')
+        self._sort_formats(formats)
+        return {
+            'id': clip_id,
+            'title': clip.get('clip_title') or self._og_search_title(self._download_webpage(url, clip_id, fatal=False)),
+            'thumbnails': self._extract_thumbnails(clip_data.get('preview')),
+            'timestamp': parse_iso8601(clip.get('created_at')),
+            'view_count': int_or_none(clip.get('clip_views_count')),
+            'formats': formats,
+            'subtitles': subtitles,
+        }
--- a/yt_dlp/utils.py
+++ b/yt_dlp/utils.py
@ -3105,16 +3105,16 @@ def try_get(src, getter, expected_type=None):
                return v


+def filter_dict(dct, cndn=lambda _, v: v is not None):
+    return {k: v for k, v in dct.items() if cndn(k, v)}
+
+
 def merge_dicts(*dicts):
    merged = {}
    for a_dict in dicts:
        for k, v in a_dict.items():
-            if v is None:
-                continue
-            if (k not in merged
-                    or (isinstance(v, compat_str) and v
-                        and isinstance(merged[k], compat_str)
-                        and not merged[k])):
+            if (v is not None and k not in merged
+                    or isinstance(v, str) and merged[k] == ''):
                merged[k] = v
    return merged
Author	SHA1	Message	Date
Ha Tien Loi	9139d2fae0	[WasdTV] Add extractor (#3045 ) Closes #3041 Authored by: un-def, hatienl0i261299	2022-03-27 20:27:41 -07:00
nyuszika7h	bdd60588b0	[viki] Don't attempt to modify URLs with signature (#3222 ) Closes #1379 Authored by: nyuszika7h	2022-03-27 20:23:44 -07:00
Luc Ritchie	f5f15c9993	[BiliIntl] Support user-generated videos (#3203 ) Authored by: wlritchi	2022-03-27 20:21:42 -07:00
pukkandan	cb96c5be70	Fix `--no-overwrite` for playlist infojson Fixes: https://github.com/yt-dlp/yt-dlp/issues/1467#issuecomment-1079922971	2022-03-28 08:45:23 +05:30
pukkandan	90137ca4be	[utils] Add `filter_dict`	2022-03-28 08:25:04 +05:30