XBRL, Web semántica, OWL, RDF, Proyectos web, Artículos de investigación, Opinión…

Entradas etiquetadas como ‘Algoritmos’

Improving Tag-Clouds as Visual Information Retrieval Interfaces

Este artículo describe una forma de agrupar palabras semánticamente en una nube de tags. Propone la siguiente fórmula para calcular la similitud entre dos tags:

Dadas dos etiquetas t1 y t2 cualesquiera la similitud semántica entre ambas será:

S ( t1,t2 ) = | t1 ∩ t2 | / | t1 ∪ t2 |

Para este ejercicio, se han calculado el número de apariciones de t1 y t2 en Google. El resultado se puede probar en la siguiente URL:

http://156.35.98.82:8080/tagCloud/

En la aplicación, se pueden escribir una serie de tags (pueden contener espacios, por ejemplo “Fernando Alonso”) separados por comas. El algoritmo realiza una serie de iteraciones sobre los términos. En cada una de ellas aplica la fórmula anteriormente descrita y saca la pareja de términos con una similitud semántica más cercana a la unidad. De esta forma, cuanto más parecido sea el número de documentos en los que aparezca la pareja de palabras y el número donde aparezca cada una por separado, más relacionadas semánticamente estarán. Cabe destacar que para calcular la unión (denominador), se ha restado el valor de la intersección, para no sumar así valores repetidos y dar un resultado más fiable.

Las conclusiones que se pueden extraer de su aplicación es que el algoritmo funciona en la mayor parte de los casos, pero se podría refinar mucho más. Por ejemplo, es muy importante el orden en el que se agrupan las parejas de palabras ya que la precisión de los resultados varía si agrupamos por la derecha o por la izquierda. Un refinamiento posible sería comprobar la similitud S entre el término que vamos a agrupar con los términos que forman los extremos del grupo, para situarlo en el extremo que más se asemeje a él.

Anuncios