Friday, February 27, 2009

Reglas sobre el romaji en Tatoeba

(Thank you Luis for translating this into Spanish)

En general
En general, debes seguir esta tabla. 
Excepciones:
  • ふ => fu (no hu)
  • づ => dzu (no zu) para diferenciarlo de ず que se convierte en 'zu'

Sobre partículas
  • は => wa (no ha)
  • を => o (no wo)
  • へ => e (no he)

Sobre ん
  • ん(n') cuando va seguida de una vocal. けんい(ken'i).
  • ん(n) en los demás casos. こんにちは(konnichiwa).


Sobre ~おう
  • No importa la situación, ~おう siempre queda como ~ou: 東京(toukyou), だろう(darou). No Tôkyô ni darô. 
  • Quisiera evitar usar acentos ya que es bastante complicado para aquellos que no tienen este tipo de acento en sus teclados.

Sobre katakana y mayúsculas
  • Katakana siempre se escribe con mayúsculas. パソコン(PASOKON).
  • Las mayúsculas se usan solo para los katakana, lo que significa que no debes usar mayúsculas al principio de la oración.

Sobre ー en katakana
  • No repitas la vocal, usa -. ゲーム(GE-MU).

Sobre ティ, ディ
  • ティ(TI). パーティ(PA-TI).
  • Lo mismo con ディ. ヂ(JI), ディ(DI).


Sobre los espacios
  • Espaciar es bastante molesto y hasta ahora no tenemos reglas para todo. En caso que no indiquemos lo contrario, haz lo que consideres mejor.
  • Siempre deja un espacio después de un verbo -te. 食べています(tabete imasu), やってみて(yatte mite), 愛してる(aishite ru).
  • No hay espacio en los adjetivos na. 上手な(jouzuna), ばかな(bakana), 本当な(hontouna)
  • Deja un espacio si hay un adjetivo antes de に : 上手に(jouzu ni), 本当に(hontou ni)
  • No hay espacio entre la forma masu y su raíz : "wakarimasu", and not "wakari masu"
  • Aún no tenemos reglas en los casos en que se juntan dos partículas. Por lo general no usamos espacios para "noni", "node", "demo", aunque sí espaciamos "ni wa", "de wa" (excepto dewa nai), "ni mo", etc.
  • Espacio antes -にくい, -やすい, -ながら, -つづける, etc.

Sobre citas
  • No usamos 「」 en romaji, sino comillas. 
  • Por ejemplo:「何時ですか」「10時半です」= "nanji desu ka" "juuji han desu"

Prefijos honoríficos お y ご
Tienes que agregar un guión después de “o” o “go”.
  • お誕生日 : o-tanjoubi
  • ご紹介 : go-shokai

Rules for romaji in Tatoeba

The rules in general
In general, you would follow this chart.
Exceptions : 
  • ふ => fu (and not hu)
  • づ => dzu (and not zu) to differentiate it from ず which is already converted as 'zu'

About particles
  • は => wa (and not ha)
  • を => o (and not wo)
  • へ => e (and not he)

About the ん
  • ん(n') when followed by a vowel. けんい(ken'i).
  • ん(n) if else. こんにちは(konnichiwa).

About the ~おう
  • No matter the situation, ~おう is converted as ~ou. 東京(toukyou), だろう(darou). Not Tôkyô or darô.
  • I would like to avoid accents because it's really not practical for those who don't have this accent on their keyboard.

About katakana and capital letters
  • Katakana always in capital letters. パソコン(PASOKON).
  • And capital letters ONLY for katakana! Which means you won't use a capital letter at the beginning of a sentence.

About the ー in katakana
  • Don't double the vowel, use -. ゲーム(GE-MU).

About ティ, ディ
  • ティ(TI). パーティ(PA-TI).
  • Same thing with DI. ヂ(JI), ディ(DI).

About spacing
  • Spacing is very annoying, and so far we don't have rules for everything. In case we didn't indicate what to do, just do whatever you feel is right.
  • Always put a space after a -te verb. 食べています(tabete imasu), やってみて(yatte mite), 愛してる(aishite ru).
  • Na adjectives : no space. 上手な(jouzuna), ばかな(bakana), 本当な(hontouna)
  • Space before に if it's after an adjective : 上手に(jouzu ni), 本当に(hontou ni)
  • No space between masu and radical : "wakarimasu", and not "wakari masu"
  • In case two particles are following each other, we do not have rules yet. I usually don't put spaces for "noni", "node", "demo". But I usually put a space for "ni wa", "de wa" (except dewa nai), "ni mo"...
  • Space before -にくい, -やすい, -ながら, -つづける, etc.

About the quotes
  • Don't use 「」in the romaji. Use the double quotes.
  • For instance : 「何時ですか」「10時半です」 = "nanji desu ka" "juuji han desu"

Honorific prefixes お and ご
You'd have to add a hyphen after "o" or "go".
  • お誕生日 : o-tanjoubi
  • ご紹介 : go-shokai

Sunday, February 8, 2009

Apprendre le japonais gratuitement sur Internet

Vous voulez apprendre le japonais mais...
  • vous parlez français (et en fait vous ne parlez QUE français)
  • vous êtes pauvre (mais quand même assez riche pour avoir Internet)
  • vous êtes motivé (ULTRA motivé)
Pour vous épargnez la corvée de devoir explorer vous-même les fins fonds du Web à la recherche de tous les sites Internet qui pourraient vous aider dans cette quête, je vous partage ma liste (pour l'instant en vrac). Ce sont exclusivement des sites en français. Je n'ai pas inclus les sites anglais (il y a vraiment beaauucoup plus de ressources en anglais).




Site claire et complet. Semble être une bonne ressource pour les débutants.





Très peu de contenu relatif à la langue japonaise. Il y a une introduction à la prononciation et l'écriture, quelques exercices, mais sans plus.





Axé sur l'écriture japonaise. Aucune ressource niveau grammaire.





Comporte 25 leçons expliquant quelques bases de la langue japonaise. Ressource potentielle pour l'apprentissage du japonais, mais niveau design... hum...




Surtout axé vocabulaire. Je n'ai trouvé aucune leçon de grammaire.





Tiens, c'est un des site que j'avais l'habitude de visiter dans mes débuts avec le japonais. Je pense qu'il est plutôt bien organisé et convient bien pour les débutants.





Peu d'explications grammaticales. Surtout des explications sur l'écriture.





Il y a pas mal d'explications grammaticales pour les débutants. Mais ça recoupe sans doute beaucoup ce qu'on peut déjà trouver dans les site précédents.





Pratiquement pas de grammaire. Surtout des explications sur la prononciation et l'écriture japonaise.




Je n'ai pas essayé de m'inscrire, mais potentiellement intéressant.





Pas de grammaire. Axé vocabulaire et écriture.




Surtout du vocabulaire.





Quelques base de grammaire.





Idem, quelques bases de grammaire.






Notions de base sur l'écriture et la grammaire.




Pour apprendre les caractères japonais.





Concerne l'écriture japonaise.





Vocabulaire pour JLPT. Ah zut c'est en anglais... Bon en même temps ce ne sont que des listes de vocabulaire.





Pour préparer le JLPT.





Réviser les kanjis.





Explications sur la prononciation et les bases du japonais.





Apprentissage des caractères.





Pour réviser les caractères.





Apprendre les kanjis.





Notions de grammaire.





Écriture, un peu de vocabulaire, quelques notions de japonais.





Faut bien chercher pour le trouver, mais le contenu est pas mal niveau grammaire.





Pour ceux qui passent leur bac de japonais, il y a la liste des notions à maîtriser (peut-être pas à jour). En tous cas, même pour ceux qui ne passent pas le bac, ça donne toujours un fil conducteur dans l'apprentissage!





Dico des kanjis.






Dictionnaire japonais.





Un autre dico.





Encore un dico.





Lui aussi il a l'air très complet.





Dictionnaire téléchargeable.





Encore peu de contenu, mais site récent et donc encore en évolution. A suivre.





Pas mal de contenu.




Kanjis.





Il fait un peu mal aux yeux ce site. Mais il semble y avoir pas mal de ressources niveau grammaire.





Là aussi, il fait un peu mal aux yeux, mais il y a pas mal de ressources.





Vocabulaire.





Pour ceux qui passent leur bac de japonais.





Pour pratiquer le japonais avec des japonais.

Saturday, February 7, 2009

Tools for Japanese romanization

Japanese to romaji conversion in Tatoeba

I have recently re-implemented KAKASI, a little tool that was present in the old Tatoeba and that can convert Japanese into romaji or furigana. You can find a "Romaji & Furigana" link to this converter at the bottom of Tatoeba website, along with "Contact", "Tatoeba Blog" and "Downloads".

I'm using it to convert automatically the Japanese sentences into romaji. But you have to know that the conversion is far from being perfect


Why can't I edit the romaji?

In the old Tatoeba, I had converted all the Japanese sentences into romaji, saved them in the database and allowed people to correct the romaji generated. But in the new version, I figured it wasn't worth it. Instead I'm just going to provide "on the fly" conversion, so you will not be able to correct a specific romaji sentence.

The reason behind this is that there are more than 150,000 Japanese sentences. If we do the math and assume that it takes an average of 10 seconds to validate a romaji sentence (validate means read + correct if necessary), that's 1 500 000 seconds spent on validating all the romaji generated by KAKASI. That's about 416 hours... It's not that much if you have a thousand dedicated people fluent in Japanese working for you, the problem can be solved within 30 minutes. But Tatoeba doesn't have so much manpower and it will surely take more than 416 to gather the necessary human resources so we'll try to get the machine do the work.


Japanese to romaji conversion softwares

I haven't tried all the free software out there than allows you to convert Japanese into romaji (actually KAKASI is the only one I tried), but here's a small list. If you know any other free software, let me know.


I don't think they all convert exactly to romaji. Perhaps some of them only parses the Japanese text (i.e. put spaces where they can potentially be a space) and provide the hiragana. But this is really the most difficult task : to put the spaces at the right place and convert correctly the kanji into hiragana.

Anyways, I'm going to be lazy and stick with KAKASI for now, trying to improve as much as possible the output it generates. 


What can be done to improve the romaji output

Surely there can be a better way to fix the romanization, but for now the simplest solution is to analyze the output KAKASI generates, and set rules to replace the wrong romaji with the correct one. This will fix the most recurrent mistakes. For instance ではない is systematically converted into dehanai. So we just set a rule that says : replace "dehanai" by "dewa nai".

The whole list of rules can be found here : 
(Note : you'll have to understand regular expressions to understand what these lines mean)

Whenever you find something wrong with the romaji generated, just try to figure out what needs to be replaced by what, and let me know. I'll add the rule to the list.

NB : You may want to know what romanization rules are used in Tatoeba.