Integración con Twitter desde R

R es una herramienta poderosa para realizar análisis estadísticos, posee una variedad de paquetes y funciones para aplicar modelos estadísticos y visuales de interés para los investigadores.

En la última década se están generando grandes cantidades de datos y una de las fuentes más importantes son las redes sociales. A través de esta red social se produce una gran cantidad de intercambio de información de diversas áreas.

Twitter es una red social de microbloging que permite a los usuarios intercambiar mensajes, videos, fotos entre otros. Su principal característica es que los mensajes tienen una limitación de tamaño, lo cual es uno de sus atractivos. Estos mensajes generalmente son de texto, lo cual ha convertido a Twitter en una fuente de noticias en vivo, superando inclusive muchos medios de comunicación tradicionales y generando un gran impacto a nivel de la accesibilidad a la información.

Diariamente millones de usuarios de esta red envian más de 175 millones de tweets y esto la hace atractiva para investigar tendencias de los más diversos temas de interes social, cultural e inclusive financiero. Además sirve para identificar tendencias del momento, las palabras más utilizadas, los temas más seguidos, los usuarios más influyentes, además, geolicalizados y regionalizados.

En las ciencias exite una rama de la investigación dedicada al estudio de grandes cantidades de datos, llamada míneria de datos o exploración de datos, en la cual se cuenta con una cantidad considerable de datos y se realizan pruebas estadísticas utilizando las ciencias de la computación para encontrar patrones específicos e identificar tendencias.

En la minería de datos generalmente se trabaja con datos númericos, en el caso de contar con grandes cantidades de texto se aplica la mineria de texto, la cual busca obtener información de conjuntos grandes de texto, los cuales no necesariamente tienen que estar ordenados; estos pueden ser documentos, textos de organizaciones, administrativos, de compañias o texto de aplicaciones como Twitter, una de las herramientas que se usa para realizar estudios, análisis e investigación sobre este tipo de datos es el sofware R y su diversidad de paquetes.

En este artículo vamos a repasar de manera detallada como extraer grandes volumenes de texto de la red social Twitter utilizando R. La idea es contribuir con los investigadores para facilitar el proceso de extracción de datos y la realización de análisis estadísticos.

Requisitos

Pasos

Usaremos la cuenta para crear una aplicación en Twitter (Twitter Apps) que permita extraer los datos.

Los pasos a seguir son los siguientes:

  • Seleccionamos “Sign in”

  • Introduce el usuario y la contraseña que se va a utilizar para extraer los datos

Se va a abrir la página siguiente:

  • Selecciona “Create New App”.

En la página colocamos la información siguiente: nombre de la aplicación, descripción de la aplicación, sitio web, callback URL (aquí colocamos http://127.0.0.1:1410), luego leemos las condiciones de Twitter aceptamos y seleccionamos crear la aplicación (Create your Twitter Application).

  • Anote y guarde su “Consumer Key” y “Consumer secret” ya que estos se van a utilizar más adelante.

Hay que guardar dichas llaves ya que otros usuarios las podrían utilizar para acceder a la cuenta.

  • Cree el “access token”. Este es el permiso que permite acceder a la cuente Twitter desde la aplicación en R. Para acceder a este permiso presione “Create my access token”

  • El paso anterior genera el “access token” y el “access token secret”, al igual que los anteriores, estos se deben resguardar.

Instalación de paquetes en R

Se necesitan los paquetes siguientes devtools, rjson, bit64, httr y Twitter, estos deben descargarse en la cónsola de R mediante los comandos siguientes:

install.packages(c("devtools", "rjson", "bit64", "httr"))
install_github("twitteR", username="geoffjentry")

Luego de instalados los paquetes se cargan los paquetes siguiente en el ambiente de R:

library("devtools")
library("twitteR")

Cargar credenciales

A continuación en la cónsola ejecutamos la llamada a la función setup_twitter_oauth() con el consumer Key y el consumer secret como parámetros, de esta forma obtenemos el acceso para descargar los Tweets.

setup_twitter_oauth(consumer_key="XXXXXXXXXXX",consumer_secret="XXXXXXXXXXX")

Descarga de Tweets

Finalmente para descargar los Tweets usamos la función searchTwitter() el cual tiene los siguientes argumentos:

  • searchString: palabra o palabras que se desean buscar (si son más de dos se separan con +)

  • n: El valor máximo de Tweets que se desean.

  • lang: Para restringir el idioma de los Tweets, de acuerdo al estándar ISO 639-1.

  • since: Fecha inicial desde la cual se tomaran los Tweets, el formato es YYYY-MM-DD.

  • until: Fecha tope para restringir los Tweets, el formato es YYYY-MM-DD.

  • geocode: Geolocalización de los Tweest, latitud y longitud de la región.

  • sinceID: Para retornar los Tweest más recientes de algún usuario mediante su ID.

  • maxID: Para retornar los Tweest más antiguos del usuario mediante su ID.

Como ejemplo usamos la función para descargar Tweest que contienen la palabra finanza.


Este es el primero de una serie de artículos que se va a enfocar en la minería de texto. Ya podemos extraer datos para iniciar nuestro estudio.

Copyright © 2014-2018 Synergy Vision. Los artículos del Corpus se comparten bajo los términos de la licencia Creative Commons con Reconocimiento, Propósito no comercial, Compartir contenido similar, 4.0 Internacional (CC BY-NC-SA 4.0).

Citar el artículo.