Saturday, April 4, 2009

Collaboration with language teachers

My plan for this year 2009 is to find a few language teachers who would be interested in collaborating with Tatoeba Project in order to help increase the quantity and the quality of the English->French and Japanese->French translations.

Teachers have students, and they have authority on these students. Students either want to or have to learn the foreign language their teacher is teaching, and part of the learning process consist in doing translations. If this translation activity could take place on Tatoeba, it could greatly increase the data! I know that students will not contribute on their own initiative. It has to be either homework, or something to be done during class. That's why I need the collaboration of teachers.

For the record, there are currently over 150,000 sentences in English and Japanese, and about 24,000 French translations for these 150,000 sentences. Therefore, there are two ways to increase the number of French translations:
  1. Add an English or Japanese sentence, and translate it into French (which would have been the only way if all the English and Japanese sentence had a French translation).
  2. Translate an already existing English or Japanese sentence into French.
The good thing about the second way is that the contributors won't need to think of what sentences to add. However, it requires that they have a minimum of knowledge of the source language, and that the original sentences don't have any mistake, or it could confuse them.

This means that I will need the help of :
  • English<->French teachers : to bring French translations for the English sentences, and correct the English and French sentences that have mistakes.
  • Japenese<->French teachers : to bring French translations for the Japanese sentences, correct the Japanese and French sentences that have mistakes.
  • English<->Japanese teachers : to correct the Japanese and English sentences that have mistakes, and bring sentences that have new vocabulary.
I have described in another post how exactly things could work.

Friday, February 27, 2009

Reglas sobre el romaji en Tatoeba

(Thank you Luis for translating this into Spanish)

En general
En general, debes seguir esta tabla. 
Excepciones:
  • ふ => fu (no hu)
  • づ => dzu (no zu) para diferenciarlo de ず que se convierte en 'zu'

Sobre partículas
  • は => wa (no ha)
  • を => o (no wo)
  • へ => e (no he)

Sobre ん
  • ん(n') cuando va seguida de una vocal. けんい(ken'i).
  • ん(n) en los demás casos. こんにちは(konnichiwa).


Sobre ~おう
  • No importa la situación, ~おう siempre queda como ~ou: 東京(toukyou), だろう(darou). No Tôkyô ni darô. 
  • Quisiera evitar usar acentos ya que es bastante complicado para aquellos que no tienen este tipo de acento en sus teclados.

Sobre katakana y mayúsculas
  • Katakana siempre se escribe con mayúsculas. パソコン(PASOKON).
  • Las mayúsculas se usan solo para los katakana, lo que significa que no debes usar mayúsculas al principio de la oración.

Sobre ー en katakana
  • No repitas la vocal, usa -. ゲーム(GE-MU).

Sobre ティ, ディ
  • ティ(TI). パーティ(PA-TI).
  • Lo mismo con ディ. ヂ(JI), ディ(DI).


Sobre los espacios
  • Espaciar es bastante molesto y hasta ahora no tenemos reglas para todo. En caso que no indiquemos lo contrario, haz lo que consideres mejor.
  • Siempre deja un espacio después de un verbo -te. 食べています(tabete imasu), やってみて(yatte mite), 愛してる(aishite ru).
  • No hay espacio en los adjetivos na. 上手な(jouzuna), ばかな(bakana), 本当な(hontouna)
  • Deja un espacio si hay un adjetivo antes de に : 上手に(jouzu ni), 本当に(hontou ni)
  • No hay espacio entre la forma masu y su raíz : "wakarimasu", and not "wakari masu"
  • Aún no tenemos reglas en los casos en que se juntan dos partículas. Por lo general no usamos espacios para "noni", "node", "demo", aunque sí espaciamos "ni wa", "de wa" (excepto dewa nai), "ni mo", etc.
  • Espacio antes -にくい, -やすい, -ながら, -つづける, etc.

Sobre citas
  • No usamos 「」 en romaji, sino comillas. 
  • Por ejemplo:「何時ですか」「10時半です」= "nanji desu ka" "juuji han desu"

Prefijos honoríficos お y ご
Tienes que agregar un guión después de “o” o “go”.
  • お誕生日 : o-tanjoubi
  • ご紹介 : go-shokai

Rules for romaji in Tatoeba

The rules in general
In general, you would follow this chart.
Exceptions : 
  • ふ => fu (and not hu)
  • づ => dzu (and not zu) to differentiate it from ず which is already converted as 'zu'

About particles
  • は => wa (and not ha)
  • を => o (and not wo)
  • へ => e (and not he)

About the ん
  • ん(n') when followed by a vowel. けんい(ken'i).
  • ん(n) if else. こんにちは(konnichiwa).

About the ~おう
  • No matter the situation, ~おう is converted as ~ou. 東京(toukyou), だろう(darou). Not Tôkyô or darô.
  • I would like to avoid accents because it's really not practical for those who don't have this accent on their keyboard.

About katakana and capital letters
  • Katakana always in capital letters. パソコン(PASOKON).
  • And capital letters ONLY for katakana! Which means you won't use a capital letter at the beginning of a sentence.

About the ー in katakana
  • Don't double the vowel, use -. ゲーム(GE-MU).

About ティ, ディ
  • ティ(TI). パーティ(PA-TI).
  • Same thing with DI. ヂ(JI), ディ(DI).

About spacing
  • Spacing is very annoying, and so far we don't have rules for everything. In case we didn't indicate what to do, just do whatever you feel is right.
  • Always put a space after a -te verb. 食べています(tabete imasu), やってみて(yatte mite), 愛してる(aishite ru).
  • Na adjectives : no space. 上手な(jouzuna), ばかな(bakana), 本当な(hontouna)
  • Space before に if it's after an adjective : 上手に(jouzu ni), 本当に(hontou ni)
  • No space between masu and radical : "wakarimasu", and not "wakari masu"
  • In case two particles are following each other, we do not have rules yet. I usually don't put spaces for "noni", "node", "demo". But I usually put a space for "ni wa", "de wa" (except dewa nai), "ni mo"...
  • Space before -にくい, -やすい, -ながら, -つづける, etc.

About the quotes
  • Don't use 「」in the romaji. Use the double quotes.
  • For instance : 「何時ですか」「10時半です」 = "nanji desu ka" "juuji han desu"

Honorific prefixes お and ご
You'd have to add a hyphen after "o" or "go".
  • お誕生日 : o-tanjoubi
  • ご紹介 : go-shokai

Sunday, February 8, 2009

Apprendre le japonais gratuitement sur Internet

Vous voulez apprendre le japonais mais...
  • vous parlez français (et en fait vous ne parlez QUE français)
  • vous êtes pauvre (mais quand même assez riche pour avoir Internet)
  • vous êtes motivé (ULTRA motivé)
Pour vous épargnez la corvée de devoir explorer vous-même les fins fonds du Web à la recherche de tous les sites Internet qui pourraient vous aider dans cette quête, je vous partage ma liste (pour l'instant en vrac). Ce sont exclusivement des sites en français. Je n'ai pas inclus les sites anglais (il y a vraiment beaauucoup plus de ressources en anglais).




Site claire et complet. Semble être une bonne ressource pour les débutants.





Très peu de contenu relatif à la langue japonaise. Il y a une introduction à la prononciation et l'écriture, quelques exercices, mais sans plus.





Axé sur l'écriture japonaise. Aucune ressource niveau grammaire.





Comporte 25 leçons expliquant quelques bases de la langue japonaise. Ressource potentielle pour l'apprentissage du japonais, mais niveau design... hum...




Surtout axé vocabulaire. Je n'ai trouvé aucune leçon de grammaire.





Tiens, c'est un des site que j'avais l'habitude de visiter dans mes débuts avec le japonais. Je pense qu'il est plutôt bien organisé et convient bien pour les débutants.





Peu d'explications grammaticales. Surtout des explications sur l'écriture.





Il y a pas mal d'explications grammaticales pour les débutants. Mais ça recoupe sans doute beaucoup ce qu'on peut déjà trouver dans les site précédents.





Pratiquement pas de grammaire. Surtout des explications sur la prononciation et l'écriture japonaise.




Je n'ai pas essayé de m'inscrire, mais potentiellement intéressant.





Pas de grammaire. Axé vocabulaire et écriture.




Surtout du vocabulaire.





Quelques base de grammaire.





Idem, quelques bases de grammaire.






Notions de base sur l'écriture et la grammaire.




Pour apprendre les caractères japonais.





Concerne l'écriture japonaise.





Vocabulaire pour JLPT. Ah zut c'est en anglais... Bon en même temps ce ne sont que des listes de vocabulaire.





Pour préparer le JLPT.





Réviser les kanjis.





Explications sur la prononciation et les bases du japonais.





Apprentissage des caractères.





Pour réviser les caractères.





Apprendre les kanjis.





Notions de grammaire.





Écriture, un peu de vocabulaire, quelques notions de japonais.





Faut bien chercher pour le trouver, mais le contenu est pas mal niveau grammaire.





Pour ceux qui passent leur bac de japonais, il y a la liste des notions à maîtriser (peut-être pas à jour). En tous cas, même pour ceux qui ne passent pas le bac, ça donne toujours un fil conducteur dans l'apprentissage!





Dico des kanjis.






Dictionnaire japonais.





Un autre dico.





Encore un dico.





Lui aussi il a l'air très complet.





Dictionnaire téléchargeable.





Encore peu de contenu, mais site récent et donc encore en évolution. A suivre.





Pas mal de contenu.




Kanjis.





Il fait un peu mal aux yeux ce site. Mais il semble y avoir pas mal de ressources niveau grammaire.





Là aussi, il fait un peu mal aux yeux, mais il y a pas mal de ressources.





Vocabulaire.





Pour ceux qui passent leur bac de japonais.





Pour pratiquer le japonais avec des japonais.

Saturday, February 7, 2009

Tools for Japanese romanization

Japanese to romaji conversion in Tatoeba

I have recently re-implemented KAKASI, a little tool that was present in the old Tatoeba and that can convert Japanese into romaji or furigana. You can find a "Romaji & Furigana" link to this converter at the bottom of Tatoeba website, along with "Contact", "Tatoeba Blog" and "Downloads".

I'm using it to convert automatically the Japanese sentences into romaji. But you have to know that the conversion is far from being perfect


Why can't I edit the romaji?

In the old Tatoeba, I had converted all the Japanese sentences into romaji, saved them in the database and allowed people to correct the romaji generated. But in the new version, I figured it wasn't worth it. Instead I'm just going to provide "on the fly" conversion, so you will not be able to correct a specific romaji sentence.

The reason behind this is that there are more than 150,000 Japanese sentences. If we do the math and assume that it takes an average of 10 seconds to validate a romaji sentence (validate means read + correct if necessary), that's 1 500 000 seconds spent on validating all the romaji generated by KAKASI. That's about 416 hours... It's not that much if you have a thousand dedicated people fluent in Japanese working for you, the problem can be solved within 30 minutes. But Tatoeba doesn't have so much manpower and it will surely take more than 416 to gather the necessary human resources so we'll try to get the machine do the work.


Japanese to romaji conversion softwares

I haven't tried all the free software out there than allows you to convert Japanese into romaji (actually KAKASI is the only one I tried), but here's a small list. If you know any other free software, let me know.


I don't think they all convert exactly to romaji. Perhaps some of them only parses the Japanese text (i.e. put spaces where they can potentially be a space) and provide the hiragana. But this is really the most difficult task : to put the spaces at the right place and convert correctly the kanji into hiragana.

Anyways, I'm going to be lazy and stick with KAKASI for now, trying to improve as much as possible the output it generates. 


What can be done to improve the romaji output

Surely there can be a better way to fix the romanization, but for now the simplest solution is to analyze the output KAKASI generates, and set rules to replace the wrong romaji with the correct one. This will fix the most recurrent mistakes. For instance ではない is systematically converted into dehanai. So we just set a rule that says : replace "dehanai" by "dewa nai".

The whole list of rules can be found here : 
(Note : you'll have to understand regular expressions to understand what these lines mean)

Whenever you find something wrong with the romaji generated, just try to figure out what needs to be replaced by what, and let me know. I'll add the rule to the list.

NB : You may want to know what romanization rules are used in Tatoeba.

Saturday, January 31, 2009

New address : tatoeba.org

Tatoeba moved to another server, the old one being very unreliable lately... In the process, the official address became http://tatoeba.org. 

The other one, http://tatoeba.fr, still works of course. But it will redirect you to the French version of the website.

Saturday, January 24, 2009

Nouveau système de validation

Contexte

Il y a actuellement plus de 330 000 phrases dans Tatoeba (toutes langues inclues). La plupart viennent d'un corpus japonais-anglais appelé le Tanaka corpus. Une partie de ce corpus a été traduit vers le français il y a environ un an et demi, grâce à l'initiative du webmaster de Tokidoki, qui plus tard m'a donné ces traductions pour les intégrer dans Tatoeba.

Nous avons maintenant environ 150 000 phrases en anglais, à peu près la même quantité en japonais, et presque 24 000 en français.

Le problème est que beaucoup de ces phrases comportent encore des fautes. Et pour comprendre pourquoi, vous devez comprendre comment ces phrases ont été collectées.


Tanaka Corpus

Pour ceux qui n'auraient pas lu la page concernant le Tanaka Corpus, ou qui ne parlent pas assez bien l'anglais, voici l'explication (et rapide traduction) :
Les étudiants du professeur Tanaka ont reçu la tâche de rassembler chacun 300 paires de phrases. Après plusieurs années, 212 000 paires ont été rassembées.

[...]

La collection originale contenaient de nombreuses erreurs, à la fois en japonais et en anglais. Beaucoup de ces erreurs étaient des fautes d'orthographe et de transcription, bien que dans un nombre significatif de cas, les phrases japonaises et anglaises contenaient des erreurs grammaticales, syntaxiques, etc., ou encore, les traduction n'étaient pas du tout en concordance.
Un énorme travail a été effectué pour maintenir ce corpus, et il a été effectué principalement par un seul homme (Paul Blau). On ne pouvait pas attendre de lui qu'il élimine toutes les fautes.


Traductions françaises

Les traductions françaises que j'ai reçu étaient le résultat du travail de 80 volontaires. L'idée de ce projet de traduction était de d'abord traduire autant de phrases que possible, même si ce n'était pas toujours correct. Et seulement ultérieurement, passer par une phase de vérification. Le projet s'est arrêté après peu de temps cependant, et les phrases qui ont été déjà traduite n'ont pas eu l'occasion d'être vérifiées.


Ancien système de validation

Dans l'ancienne version de Tatoeba, toute nouvelle contribution n'était pas directement ajoutée dans le reste de la collection. Au lieu de cela, elle était ajoutée dans une liste d'attente. Les modérateurs pouvaient accéder à cette lites, valider les contributions correctes, et refuser celles qui ne l'étaient pas. Cela avait pour but d'empêcher d'augmenter le nombre de phrases ou traduction incorrectes.

Mais à moins d'avoir un solide group de modérateurs dévoués et qualifiés, ce genre ce système était clairement très lent et très lourd.


Nouveau système de validation

Dans le nouveau système de validation, il n'y a plus de modérateurs. Au lieu de cela, chaque phrase appartiendra à un propriétaire, et seul le propriétaire peut modifier la phrase. Les contributeurs seront responsables des phrases qu'ils possèdent. Si vous voyez une faute dans une phrase qui n'est pas la vôtre, vous pouvez poster un commentaire à ce sujet. Bien entendu, chaque utilisateur pourra rapidement accéder aux commentaires qui ont été écrits à propos des phrases qu'ils possèdent.

Si un utilisateur ou une utilisatrice ne se sent pas capable de prendre la responsabilité, il ou elle peut renoncer à la propriété d'une phrase. Ces phrases "orphelines" pourront être adoptées par d'autres utilisateurs. Actuellement, je peux vous dire que la plupart des phrases sont orphelines, et le but est de leur trouver un parent.

En plus de cela, il sera possible pour tout le monde de suivre ce que d'autres contributeurs font dans Tatoeba. Dans le cas où des gens ne font pas du bon travail et bloquent de nombreuses phrases qui ont des fautes en les adoptant et en ne les corrigeant pas, it ne sera pas difficile de leur retirer leur droits.