Destripando las TED Talks para conseguir los subtitulos en SRT
jueves, 6 de enero de 2011Supongo que a estas alturas ya conocerán ustedes las charlas de TED (Tecnología, Entretenimiento, Diseño).
Es de esos inventos de los yanquis que te congratulan de vez en cuando con el imperio: charlas breves sobre un teatro con público y a cargo de algún individuo que ha destacado por algún motivo en su campo profesional. Las charlas rondan los 15-20 minutos y las hay de todo tipo y muchas.
Y, como suele ocurrir cuando las cosas están bien hechas, los responsables de TED se han preocupado en facilitar la distribución del material audovisual (al contrario de esa campañas de Tele5 & co. destinadas a perseguir, insultar y cabrear etc.. a los que copian contenidos a youtube distribuyen tus publicaciones) distribuyendo bajo licencias Creative Commons, enlazando archivos fuente, facilitando la descarga en diversos formatos y posibilitando la colaboración de usuarios anónimos que hay dia de hoy han conseguido que haya vídeos traducidos a más de 80 idiomas y con equipos de traductores que matarían de envidia a más de una productora televisiva.
El caso es que gracias a estos subtitulos he podido ver muchos vídeos en su página web, pero me faltaba alguna opción para poder descargar también los subtitulos (además de la película) y poder así verlo tranquilamente en el TV con una calidad decente.
(Nota: al pie de este apunte hay tres enlaces a tres vídeos que deberiais ver)
Obteniendo vídeos y subtítulos
Trasteando la web de TEDtalks llegué a averiguar la url de los subtitulos. Algo como :
http://www.ted.com/talks/subtitles/id/XXXX/lang/spa
Siendo XXX el número identificativo de la charla en cuestión.
¿Y donde se obtiene el número de la charla? pues viendo el código html de cualquiera de las charlas se llega a una linea que dice:
<dt><a href="/talks/download/video/9670/talk/918">Watch high-res video (MP4)</a></dt>
Es decir, para descargar la entrevista a Julian Assange y sus subtítulos podríamos descargar el vídeo en alta resolución de:
wget "http://www.ted.com/talks/download/video/9670/talk/918"
Esto produciría la descargar de un archivo de vídeo en formato MP4 de unos 300 Mg.
(donde 9670 es el id del video – una charla dispone de varios vídeos- y 918 el id de la charla)
y los subtítulos de (caso de que estén disponibles)
wget "http://www.ted.com/talks/subtitles/id/918/lang/spa"
Esto produciría la descarga de un archivo llamado spa (sin extensión) que contiene los subtitulos en formato JSON.
Asi es que lo me hice fué un script que pasandole la página de una charla hace:
– destripa el html y obtiene los id de la charla y del vídeo
– descarga el vídeo en alta resolución
– descargar el json
– convierte json a srt.
El proceso total le lleva unos 15 minutos.
Tres subtítulos para descargar
Los tres primeros vídeos descargados son bastante buenos y variados, muy recomendables. Si no quereis calentarse la cabeza simplemente pinchád en sobre Pagina de la charla, accedeis a la página oficial de la charla y allí activais los subtitulos en Español y le dais al vídeo a pantalla completa.
Si soy más comodos os podeis descargar el vídeo y el archivo SRT para verlo en el ordenador, en TV, en reproductor de Mp3, etc…
Richard Dawkins, «Mas raro de lo que podemos suponer: la extrañeza de la ciencia«
El maestro Dawkins dá una pequeña clase de biología y ciencia acerca de la complejidad y sorprendente que puede llegar a ser el mundo en que vivimos. Una de las primeras (2005) y más famosas charlas.
Pagina de la charla
Descargar video Mp4 en alta resolución
Descargar subtitulos en SRT
Julian Assange, ¿porqué el mundo necesita Wikileaks?
Cuando se hizo la entrevista, hace 6 meses, todavía no habia saltado la liebre y este australiano todavía no era más buscado que Bin Laden.
Como decía Escolar cuando enlazó el vídeo, al terminar la entrevista también dan ganas de ponerse en pie para aplaudir.
Página de la charla
Descargar vídeo MP4 en alta resolución
Descargar subtitulos en SRT
Sheryl Sandberg, «Porqué hay tan pocas mujeres en puestos de lider«
Una de las jefas de Facebook y de Google habla acerca de la presencia de mujeres en puestos de relevancia empresarial y política, y comenta algunos aspectos sobre la educación sexista que favorecen esta situación.
Pagina de la charla
Descargar video Mp4 en alta resolución
Descargar subtitulos en SRT
En próximos dias iré colgando nuevos SRT para descargar
Hank
#1/ 07 de January/2011 a 13:35:58
Otros comentarios de «Hank»
Yo sí sigo esta página de vez encuando.
Tiene cosas muy interesantes y el formato de las charlas es muy atractivo.
Además, efectivamente cuidan mucho facilitar que todo el mundo pueda entender lo que ahí se dice.
Muy interesante, insisto.
Trebol-A
#2/ 07 de January/2011 a 17:21:10
Otros comentarios de «Trebol-A»
Si, sin duda lo mejor es el formato, breve, sencillo y ligero. Si el tipo tiene cosas interesantes que contar con 15-20 minutos se luce y se es un toston no dá tiempo a aburrir en exceso.
Miguel
#3/ 08 de January/2011 a 11:50:20
Otros comentarios de «Miguel»
Yo no tenía ni idea de que existía esta página, pero ya me he apuntado y hecho mi primer comentario...
Hank
#4/ 09 de January/2011 a 00:35:45
Otros comentarios de «Hank»
Si leyera vd mi blog se habría enterado de su existencia hace meses, Miguelillo.
Miguel
#5/ 09 de January/2011 a 01:55:39
Otros comentarios de «Miguel»
Vaya, tomo buena nota.
sebas
#6/ 11 de January/2011 a 21:22:02
Otros comentarios de «sebas»
la idea dada por Richard Dawkins de que somos como una onda me ha dejado pasmado... nunca lo había visto de ese modo, y me parece genial.
Francisco
#7/ 10 de July/2011 a 16:23:14
Otros comentarios de «Francisco»
Muchas gracias por tu artículo te quería preguntar ¿existe algún xml/json para el VIDEO que nos de la info del video y su thumbnail?
Es para coger con la url y sacar toda esa info.
Gracias por adelantado
Trebol-A
#8/ 10 de July/2011 a 17:57:37
Otros comentarios de «Trebol-A»
Hola el feed del sitio te dá bastante información sobre thumbnails, mp4 de origen, etc...
curl -g -s "http:://feeds.feedburner.com/tedtalks_video" | xml sel -N media=http:://search.yahoo.com/mrss/ -t -m "/rss/channel/item" -v "media:thumbnail/@url" -n
Esa línea de dá la lista de los thumbnails de los últimos 50 vídeos publicados (cambia los :: por :)
Francisco
#9/ 10 de July/2011 a 18:29:09
Otros comentarios de «Francisco»
gracias por responder tan rápido, pero con eso tengo la lista y la info de los últimos 50 videos. En realidad lo que necesito saber dada una url como esta:
http://www.ted.com/talks/jonathan_drori_the_beautiful_tricks_of_flowers.html
obtener el xml con la info del video.
Te doy un ejemplo de youtube:
Url de youtube
http://www.youtube.com/watch?v=aeg0mLp9IB0
datos del video en este caso en json
http://gdata.youtube.com/feeds/api/videos/aeg0mLp9IB0?alt=json
Trebol-A
#10/ 10 de July/2011 a 20:48:10
Otros comentarios de «Trebol-A»
Ok,
en el feed que te comento arriba tienes algunos datos mas, como:
rss/channel/item/title
rss/channel/item/itunes:author
rss/channel/item/description
rss/channel/item/itunes:subtitle
rss/channel/item/itunes:summary
rss/channel/item/link
rss/channel/item/guid
rss/channel/item/pubDate
rss/channel/item/category
rss/channel/item/itunes:explicit
rss/channel/item/itunes:duration
rss/channel/item/itunes:keywords
rss/channel/item/media:content
rss/channel/item/media:thumbnail
rss/channel/item/itunes:image
rss/channel/item/feedburner:origLink
rss/channel/item/enclosure
rss/channel/item/feedburner:origEnclosureLink
rss/channel/media:credit
rss/channel/media:rating
rss/channel/media:description
Y apostaría porque tienen algún xml más detallado sobre el vídeo, pero habría que investigarlo. Entre los enlaces que yo manejo solo tengo esto.
lol
#11/ 18 de August/2013 a 00:47:33
Otros comentarios de «lol»
un gran favor seria tomarte la molestia de dejarnos el script
Trebol-a
#12/ 19 de August/2013 a 09:51:35
Otros comentarios de «Trebol-a»
El script, cuando funcionaba, era esto: http://www.trebol-a.com/publicar/TedTalks2AviSRT.
Lo que no sabría decirte ahora es si funciona o no. Hace tiempo que lo usé por última vez y creo que parcheé algo para adaptarlo a los cambios en la web de TedTalk. Pero hace tanto tiempo que es muy probable que haya que readaptarlo de nuevo a los cambios de url del sitio.
18 de December, 2024 @ 12:40