De donde bajo la palabra twitter en vectores
Descarga de Glove.twitter.27b.zip
GloVe es un algoritmo de aprendizaje no supervisado para obtener representaciones vectoriales de las palabras. El entrenamiento se realiza a partir de estadísticas globales de co-ocurrencia de palabras de un corpus, y las representaciones resultantes muestran interesantes subestructuras lineales del espacio vectorial de las palabras.
La distancia euclidiana (o similitud del coseno) entre dos vectores de palabras proporciona un método eficaz para medir la similitud lingüística o semántica de las palabras correspondientes. A veces, los vecinos más cercanos según esta métrica revelan palabras raras pero relevantes que quedan fuera del vocabulario de un humano medio. Por ejemplo, aquí están las palabras más cercanas a la palabra objetivo rana:
Las métricas de similitud utilizadas para evaluar a los vecinos más cercanos producen un único escalar que cuantifica el parentesco de dos palabras. Esta simplicidad puede ser problemática, ya que dos palabras dadas casi siempre presentan relaciones más intrincadas que las que puede captar un solo número. Por ejemplo, hombre puede considerarse similar a mujer en el sentido de que ambas palabras describen a seres humanos; por otro lado, las dos palabras suelen considerarse opuestas, ya que destacan un eje principal en el que los seres humanos se diferencian entre sí.
Logotipo de Twitter svg
Esta obra está bajo una licencia Creative Commons Attribution 4.0 International License. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en la línea de crédito; si el material no está incluido en la licencia Creative Commons, los usuarios tendrán que obtener el permiso del titular de la licencia para reproducir el material. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/
Palgrave Commun 2, 16010 (2016). https://doi.org/10.1057/palcomms.2016.10Download citationShare this articleAnyone you share the following link with will be able to read this content:Get shareable linkSorry, a shareable link is not currently available for this article.Copy to clipboard
Logotipo de Twitter png
En pocas palabras, una incrustación es una transformación de los datos de entrada en una representación más útil: una lista de números reales, llamada vector. Hay que tener en cuenta que la utilidad de la representación puede tener un significado diferente según el dominio. Por ejemplo, si estamos incrustando palabras, queremos asegurarnos de que las incrustaciones contengan algún sentido semántico. Pero si el objetivo es la compresión de características (que se explica más adelante), una incrustación será útil si es compacta (de baja dimensión) sin perder demasiada información.
La imagen siguiente ilustra el concepto de representar a los usuarios como vectores bidimensionales visualizados como coordenadas en un gráfico. Más adelante volveremos a analizar este concepto; tenga en cuenta que los usuarios más parecidos están más cerca unos de otros en el gráfico.
Una incrustación suele estar asociada a una entidad, que diremos que es una instancia de algún tipo discreto de interés, como un usuario, un Tweet, un autor, una palabra o una frase, etc. Estas incrustaciones de entidades (en el sentido de mapeo) pueden descomponerse en dos clases distintas: incrustaciones estáticas y dinámicas. Una incrustación estática es una incrustación de entidades tal que cada entidad tiene un único valor de incrustación. Una incrustación dinámica, en cambio, es una incrustación de entidades que puede tener más de un valor de incrustación. Utilizamos el término dinámico porque los cambios de incrustación de una entidad suelen ser una función del tiempo. A menudo, la gente utiliza la incrustación para referirse tanto a la transformación (verbo) como a los valores particulares de la transformación (sustantivo).
Guante-twitter-25
La conversión de palabras en vectores, o vectorización de palabras, es un proceso de procesamiento del lenguaje natural (PLN). El proceso utiliza modelos lingüísticos para mapear las palabras en un espacio vectorial. Un espacio vectorial representa cada palabra mediante un vector de números reales. También permite que palabras con significados similares tengan representaciones similares.
Entre varias tecnologías de incrustación de palabras, en este componente implementamos tres métodos ampliamente utilizados. Dos de ellos, Word2Vec y FastText, son modelos de entrenamiento en línea. El otro es un modelo preentrenado, glove-wiki-gigaword-100.
La siguiente tabla contiene el resultado de este componente, tomando como entrada el conjunto de datos Wikipedia SP 500. La columna de la izquierda indica el vocabulario. Su vector de incrustación está representado por los valores de las restantes columnas de la misma fila.