Here.
Šlo to celkem jednoduše tímto regexpem (zdroj
zde):
Kód: Vybrat vše
\n.+[^\x00-\x7F].+\n -> non-ASCII znak kdekoliv na řádku, ale minimálně 3 znaky
Ten našel a odstranil každý řádek, který obsahoval "non-ASCII" znak.
Ale musely tam být minimálně 3 znaky, jelikož některé řádky měly jen jedno nebo dva čínské znaky, tak to bylo potřeba projet celý ještě jednou těmito regexpy:
Kód: Vybrat vše
\n[^\x00-\x7F].+\n -> non-ASCII znak na začátku řádku
Kód: Vybrat vše
\n.+[^\x00-\x7F]\n -> non-ASCII znak na konci řádku
Ale teď mě napadá, že možná stačilo místo kvantifikátoru
plusu (minimálně jeden odpovídající znak) použít u
tečky (jakýkoliv znak) jako kvantifikátor
hvězdičku (0 až neomezeně odpovídajících znaků)
A nemusel bych to nechat prohledávat 3x

Ty tečky tam jsou proto, že občas byly na řádku nejen všechno čínské znaky, ale například čísla, která už jsou ASCII znaky.
Každopádně teď tam vznikly občas časy, pro které není žádný text, nevím co to udělá v přehrávači.
Například:
9
00:00:31,920 --> 00:00:34,520
and its most spectacular.
10
00:00:58,030 --> 00:01:04,330
11
00:01:07,330 --> 00:01:10,330
12
00:01:35,230 --> 00:01:39,260
Day 1, filming in Idaho's Pioneer Mountains,
Šlo by to takové výskyty najít a odstranit dalším regexpem, ale pak se rozbije číslování (po 9 bude najednou 12).
A tím se už fakt dostáváme k původnímu dotazu - nějký program který by opravil i číslování
