Base de datos de alias / apodos de nombre común de personas

Estoy involucrado con un proyecto SQL / .NET que buscará a través de una lista de nombres. Estoy buscando una forma de devolver algunos resultados con nombres de personas similares. Si busca “Tom”, los resultados incluirían Thom, Thomas, etc. No es importante si se trata de un archivo o un servicio web. Ejemplo de diseño:

Table "Names" has Name and NameID Table "Nicknames" has Nickname, NicknameID and NameID 

Ejemplo de salida:

 You searched for "John Smith" You show results Jon Smith, Jonathan Smith, Johnny Smith, ... 

¿Hay alguna base de datos (pública o de pago) adecuada para este tipo de tareas para poblar una relación entre apodos y nombres?

Una búsqueda en google en “Database of Nicknames” apareció en pnNickName (por pago).

Además, creo que solo necesita una sola tabla para este trabajo, no dos, con NameID, Name y MasterNameID. Todos los apodos van a la columna Nombre. Un nombre es considerado el “canónico”. Todos los registros de apodos usan la columna MasterNameID para señalar a ese registro, con el nombre canónico apuntando a sí mismo.

Su esquema de dos tablas no contiene información adicional y, dependiendo de cómo complete la tabla de apodos, es posible que necesite código adicional para manejar los casos canónicos.

Estoy agregando otra fuente para cualquier persona que se encuentre con esta pregunta a través de Google. Este proyecto proporciona una muy buena búsqueda para este propósito.

https://github.com/carltonnorthern/nickname-and-diminutive-names-lookup

Es algo más simple y menos completo que pdNickName, pero por otro lado es gratis y fácil de usar.

Acabo de encontrar esta página web.

Parece que podrías escribirlo bastante fácilmente.

http://www.behindthename.com/php/extra.php?terms=steve&extra=r&gender=m

Solo desearía poder restringir esto a inglés ..

Otra base de datos de coincidencia de nombres comerciales es: http://www.basistech.com/name-indexer/

Se ve bastante profesional (aunque potencialmente costoso).

Afirman que son compatibles con los siguientes idiomas:
Árabe, chino (simplificado), chino (tradicional), persa (farsi / dari), inglés, japonés, coreano, pashto, ruso, urdu

Aquí hay un repository github con csv de nombres relacionados , y puedes contribuir de nuevo:

Las primeras líneas muestran el formato:

 aaron,ron abel,abe abednego,bedney abijah,ab,bige abigail,ab,abbie,abby,gail abner,ab,abbie,abby abraham,abe,abram,bram absalom,ab,abbie,app 

Hay una base de datos llamada pdNicknames (que se encuentra en http://www.peacockdata2.com/products/pdnickname/ ). Contiene todo lo que necesita, a un costo de $ 500.

Formato similar al csv de Stan James, pero doblado de dos formas para las búsquedas: Nombre para apodo: https://github.com/MrCsabaToth/SOEMPI/blob/master/openempi/conf/name_to_nick.csv Apodo para nombrar: https: // github .com / MrCsabaToth / SOEMPI / blob / master / openempi / conf / nick_to_name.csv

Para seleccionar un nombre de sonido similar, use: (vea MSDN )

 SELECT SOUNDEX ('Tom')