XBRL, Web semántica, OWL, RDF, Proyectos web, Artículos de investigación, Opinión…

Archivo para junio, 2008

Improving Tag-Clouds as Visual Information Retrieval Interfaces

Este artículo describe una forma de agrupar palabras semánticamente en una nube de tags. Propone la siguiente fórmula para calcular la similitud entre dos tags:

Dadas dos etiquetas t1 y t2 cualesquiera la similitud semántica entre ambas será:

S ( t1,t2 ) = | t1 ∩ t2 | / | t1 ∪ t2 |

Para este ejercicio, se han calculado el número de apariciones de t1 y t2 en Google. El resultado se puede probar en la siguiente URL:

http://156.35.98.82:8080/tagCloud/

En la aplicación, se pueden escribir una serie de tags (pueden contener espacios, por ejemplo “Fernando Alonso”) separados por comas. El algoritmo realiza una serie de iteraciones sobre los términos. En cada una de ellas aplica la fórmula anteriormente descrita y saca la pareja de términos con una similitud semántica más cercana a la unidad. De esta forma, cuanto más parecido sea el número de documentos en los que aparezca la pareja de palabras y el número donde aparezca cada una por separado, más relacionadas semánticamente estarán. Cabe destacar que para calcular la unión (denominador), se ha restado el valor de la intersección, para no sumar así valores repetidos y dar un resultado más fiable.

Las conclusiones que se pueden extraer de su aplicación es que el algoritmo funciona en la mayor parte de los casos, pero se podría refinar mucho más. Por ejemplo, es muy importante el orden en el que se agrupan las parejas de palabras ya que la precisión de los resultados varía si agrupamos por la derecha o por la izquierda. Un refinamiento posible sería comprobar la similitud S entre el término que vamos a agrupar con los términos que forman los extremos del grupo, para situarlo en el extremo que más se asemeje a él.

Servicios Web Semánticos

En la última asignatura del Máster, Nuevos Avances en Web Semántica, hemos hablado sobre Servicios Web Semánticos, de hecho, como ejercicio de investigación tenemos que escribir un pequeño paper sobre el tema.

A pesar de que la web semántica es mi principal area de trabajo e investigación, creo que hay cosas que han sido “malentendidas” o “malexplicadas” desde un primer momento. Los evangelizadores de la web semántica, hablaban de buscadores semánticos que atendiendo a una consulta en lenguaje natural de un usuario, devuelvan los resultados semánticamente relacionados, pero ¿se ha estudiado la viabilidad de esta afirmación? Para llevarlo a cabo, serian necesarios no solo robots de búsqueda que interpretasen el lenguaje natural expresado por los usuarios, sino marcado semántico en todas las páginas indexadas por estos buscadores… En definitiva, no creo que sea imposible pero sí muy dificil. A veces se habla sin fundamento sobre estas cuestiones y no he visto ni un solo planteamiento teorico que demuestre lo contrario.

De igual forma, creo que está pasando lo mismo con los servicios web semánticos. Se propone una capa de abstracción basada en ontologías que por una parte describan qué hace el servicio, sus entradas y sus salidas para que se pueda descubrir e invocar por medio de procesos automatizados. En primer lugar, creo que una dificultad para llevar a cabo esto es la ambiguedad inherente a la semántica y por otro lado la no existencia de un repositorio común de servicios web semánticos (como la “poco acogida” iniciativa del UDDI).

Como contrapunto, también creo que los servicios web semánticos, también tienen cosas muy buenas y útiles (que es lo que siempre tiendo a valorar más). Como por ejemplo, el uso de marcado semántico para crear estructuras de control y evitar el interbloqueo de servicios o la explosión de estados (derivada de la primera) en la orquestación de servicios.

Por supuesto, esto es solo una reflexión personal, susceptible de ser rebatida y todavía espero la explicación que me haga entender cómo construir las “utopias” de la web semántica…

Consulta DBPedia

He realizado una pequeña consulta SPARQL a la DBPedia, donde se encuentran gran parte de los contenidos de la Wikipedia etiquetados en RDF, como ejercicio para la asignatura Nuevos Avances en Web Semántica. SPARQL es un lenguaje de consulta para RDF que funciona por encaje de patrones (sujeto, predicado y objeto). Hay una guía de referencia de SPARQL tanto de sintaxis, patrones, etc.

La consulta realizada sobre DBPedia, selecciona escritores españoles, su lugar de nacimiento, sus obras, su página web y una fotografía. El código es el siguiente (puede probarse con SNORQL, un editor SPARQL):

SELECT DISTINCT ?escritor ?nombre ?lugar ?obra ?website ?foto

WHERE {

?escritor skos:subject <http://dbpedia.org/resource/Category:Spanish_writers&gt; .

?escritor rdfs:label ?nombre .

?escritor foaf:depiction ?foto .

?escritor <http://dbpedia.org/property/birthPlace&gt; ?lugar .

OPTIONAL{

?escritor foaf:homepage ?website .

}

OPTIONAL{

?obra dbpedia2:writer ?escritor .

}

FILTER (LANG(?nombre) = ‘es’) .

}

Análisis de documentos XBRL mediante tecnologías de Web Semántica

Analysis of XBRL documents representing financial statements using Semantic Web Technologies“.

Este fué el título de mi PFC, leído el 4 de Septiembre de 2007.

Como todos los proyectos, ha ido (y continúa) evolucionando con el paso del tiempo y el estudio de los problemas de XBRL y sus correspondientes solucciones.

XBRL es un estándar a nivel internacional para describir información financiera de empresas. Es un vocabulario XML, pero no es solo eso. Cada país, define sus propias taxonomías para trabajar con la información financiera, acordes a su plan general contable vigente.

En este proyecto, se ha conseguido analizar la información contenida en los documentos XBRL acordes a la taxonomía IPP mediante tecnologías de web semántica, definiendo para ello una ontología OWL de conceptos financieros y creando instancias RDF de la misma, de manera que el usuario pueda crear su propio repositorio de instancias RDF. Además, se ha implementado un sencillo editor de consultas SPARQL integrado en la aplicación para poder lanzar consultas sobre los datos analizados.

La organización XBRL España ha publicado un artículo sobre este proyecto.

Presentación

Ante todo me presento, soy Sheila Méndez Nuñez y esta es la primera vez que hago el intento de escribir un blog.

El objetivo de este blog es ir escribiendo pequeñas notas sobre artículos leídos, prácticas o trabajos realizados y artículos publicados; así que daré unos cuantos detalles importantes sobre mi perfil:

  • He estudiado Ingeniería Técnica en Informática de Sistemas en la EUITIO y he leído mi proyecto fin de carrera el 4 de Septiembre de 2007.
  • Actualmente, estoy cursando el Postgrado Oficial “Máster en Ingeniería Web“, también en la EUITIO.
  • Tanto mi proyecto fin de carrera como mi futuro proyecto de fin de máster, giran en torno a XBRL y Web Semántica. Este tema lo ampliaré en otro post.
  • También actualmente trabajo en una agencia de publicidad asturiana, Impact 5. Mi labor alí, es coordinar el departamento de web y medios interactivos, y además como consultora sobre las nuevas tecnologías y modelos de negocio donde debe trabajar la empresa, para mantenerse al día.

Y bueno… este es un pequeño resumen.