diff --git a/gather_tags_in_json.py b/gather_tags_in_json.py index 2ba9a031..95965d38 100644 --- a/gather_tags_in_json.py +++ b/gather_tags_in_json.py @@ -14,6 +14,12 @@ args = parser.parse_args() # Configuration blog_folder = args.blog + +if not blog_folder: + print("Le chemin vers le dossier contenant les fichiers HTML est requis.") + exit(1) + + directory_base = f'sources/{blog_folder}' # Remplacez par le chemin de votre dossier directory_fr = f'{directory_base}/lang_fr' # Remplacez par le chemin de votre dossier @@ -22,7 +28,7 @@ build_dir = f'sources/{blog_folder}/build' if not os.path.exists(build_dir): print(f"Création du dossier {build_dir}") os.makedirs(build_dir) - + output_file = f'{build_dir}/tags.json' # Fichier de sortie html_output_folder = f'html-websites/{blog_folder}/tag' # Dossier de sortie pour les fichiers HTML html_output_folder_index = f'html-websites/{blog_folder}/tags' # Dossier de sortie pour les fichiers HTML diff --git a/linking_articles_prev_next.py b/linking_articles_prev_next.py index f3569035..2e92b7bb 100644 --- a/linking_articles_prev_next.py +++ b/linking_articles_prev_next.py @@ -26,8 +26,8 @@ parser.add_argument('--run_pandoc', type=str, help='Activer ou non la générati parser.add_argument('--enable_roam_id_rewrite', type=str, help='Activer ou non la réécriture des liens roam', default=False) parser.add_argument('--generate_html_pages', type=str, help='Activer ou non la génération des pages html', default=True) parser.add_argument('--generate_linkings_json', type=str, help='Activer ou non la génération du json des liens entre articles', default=True) -parser.add_argument('--force_html_regen', action='store_true', help='Forcer la régénération des fichiers HTML même s\'ils existent déjà') -parser.add_argument('--rebuild_articles_info_json', type=str, help='Chemin du fichier JSON des articles', default=False) +parser.add_argument('--force_html_regen', action='store_true', help='Forcer la régénération des fichiers HTML même s\'ils existent déjà', default=False) +parser.add_argument('--rebuild_articles_info_json', type=str, help='Chemin du fichier JSON des articles', default=True) args = parser.parse_args() run_gemini = args.run_gemini @@ -53,7 +53,7 @@ directories_to_scan = [directory_pages] destination_json = f'sources/{args.blog}/build' destination_html = f'html-websites/{args.blog}/' destination_gmi = f'gemini-capsules/{args.blog}/' - +json_file = destination_json + '/articles_info.json' # Si rebuild_articles_info_json est True, supprimer le fichier JSON existant if rebuild_articles_info_json: print(f"Suppression du fichier JSON existant: {json_file}") @@ -66,10 +66,10 @@ if rebuild_articles_info_json: # Dictionnaire pour stocker les informations des fichiers # Vérifier si le fichier JSON existe déjà -json_file = destination_json + '/articles_info.json' + files_dict = {} if os.path.exists(json_file): - # ----- print(f"Chargement du fichier JSON existant: {json_file}") + #print(f"Chargement du fichier JSON existant: {json_file}") try: with open(json_file, 'r', encoding='utf-8') as f: files_dict = json.load(f) @@ -93,9 +93,9 @@ lang_folder = global_config.get('lang_default', 'fr') if generate_linkings_json : - # ----- print(f"Génération des liens entre articles pour {count_articles} articles") - # ----- print(f"run_pandoc: {run_pandoc}") - # ----- print(f"run_gemini: {run_gemini}") + #print(f"Génération des liens entre articles pour {count_articles} articles") + #print(f"run_pandoc: {run_pandoc}") + #print(f"run_gemini: {run_gemini}") article_type = "article" # Parcourir les fichiers du dossier @@ -117,28 +117,39 @@ if generate_linkings_json : print(f"directory: {subdir}, {article_type}, {file_name}, {index}/{len(os.listdir(f'{directory}/{subdir}'))}") # Vérifier si le fichier se termine par une extension supportée if not (file_name.endswith('.org') or file_name.endswith('.md') or file_name.endswith('.gmi')): + print(f"Fichier {file_name} non supporté") continue if file_name.endswith('.org'): counter+=1 - print(f"Traitement de l'article {counter}/{count_articles} {file_name}") + # print(f"Traitement de l'article {counter}/{count_articles} {file_name}") file_path = os.path.join(directory, subdir, file_name) if force_html_regen and counter % 10 == 0: print(f"{time.strftime('%H:%M:%S')} : Articles traités : {counter}/{count_articles}") + # on ouvre chacun des fichiers interprétables + # pour déterminer les informations qu'il contient + # afin de les stocker dans un json pour la génération des pages html et gemini with open(file_path, "r", encoding="utf-8") as f: + print(f"----- Traitement de l'article {counter}/{count_articles} {file_name}") content = f.read() + # Convertir le contenu Org en HTML + title = find_first_level1_title(content) + date_modified = time.ctime(os.path.getmtime(file_path)) + rebuild_this_article_gemini = False + rebuild_this_article_html = False + basename = get_basename(file_name) date_str, annee, slug = find_year_and_slug_on_filename(basename) + slug = slugify_title(title) tags = extract_tags_from_file(file_path, global_config['excluded_tags']) # Convertir les tags en liste si c'est un set if isinstance(tags, set): tags = list(tags) boom = basename.split('__') - # Convertir le contenu Org en HTML - title = find_first_level1_title(content) + # Désactiver les warning d'identifiant dupliqué dans la conversion pandoc content_without_h1 = re.sub(r'^\*.*?$', '', content, count=1, flags=re.MULTILINE) @@ -148,21 +159,20 @@ if generate_linkings_json : html_content_without_h1 = '' # Vérifier l'existence du fichier HTML pour déterminer last_html_build html_path = f"html-websites/{args.blog}/{annee}/{slug}/index.html" + print(f"html_path existe il? : {html_path}") last_html_build_time = None if os.path.exists(html_path): # Obtenir la date de création du fichier HTML last_html_build_time = os.path.getctime(html_path) - # # ----- print(f"last_html_build: {last_html_build_time} : {html_path}") + print(f"----- last_html_build EXISTE: {last_html_build_time} : {html_path}") else: - # ----- print(f"----------- last_html_build html_path: {html_path} n'existe pas") + print(f"html_path n'existe pas: on va le créer") + #print(f"----------- last_html_build html_path: {html_path} n'existe pas") # Vérifier l'existence du fichier Gemini pour déterminer last_gemini_build - os.makedirs(os.path.dirname(f"./html_websites/{args.blog}/{annee}"), exist_ok=True) - os.makedirs(os.path.dirname(f"./gemini-capsules/{args.blog}/{annee}"), exist_ok=True) + gemini_path = f"./gemini-capsules/{args.blog}/{annee}/{slug}.gmi" - last_gemini_build = None - rebuild_this_article_gemini = False if os.path.exists(gemini_path): last_gemini_build = time.ctime(os.path.getmtime(gemini_path)) # Vérifier si l'article doit être reconstruit en comparant les dates de modification @@ -171,22 +181,26 @@ if generate_linkings_json : last_build_time = time.mktime(time.strptime(last_gemini_build)) rebuild_this_article_gemini = file_modified_time > last_build_time else: - rebuild_this_article_gemini = True - print(f"rebuild_this_article_gemini: {rebuild_this_article_gemini}") + # print(f"rebuild_this_article_gemini: {rebuild_this_article_gemini}") # Vérifier si l'article doit être reconstruit en comparant les dates de modification - rebuild_this_article_html = False + if last_html_build_time: file_modified_time = os.path.getmtime(file_path) - # # ----- print(f"--------- file_modified_time: {file_path} : {file_modified_time}") + print(f"--------- file_modified_time: {file_path} : {file_modified_time}") + print(f"--------- last_html_build_time: {last_html_build_time}") # Obtenir l'heure de dernière modification du fichier HTML rebuild_this_article_html = file_modified_time > last_html_build_time - # # ----- print(f"--------- article modifié après le build de son rendu html: {file_path}, {rebuild_this_article_html}") + if rebuild_this_article_html: + print(f"--------- article modifié après le build de son rendu html: {file_path}, {rebuild_this_article_html}") + else: + print(f"--------- article non modifié après le build de son rendu html: {file_path}, {rebuild_this_article_html}, on ne recrée pas") + rebuild_this_article_html = False else: # si il n'y a pas de fichier html, on le construit pour la première fois - # ----- print('on reconstruit le html de l\'article', file_name) + print('on reconstruit le html de l\'article', file_name) rebuild_this_article_html = True if rebuild_this_article_html: @@ -195,7 +209,7 @@ if generate_linkings_json : # Garder le contenu HTML existant si déjà présent if f"{annee}/{slug}" in files_dict and 'html_content' in files_dict[f"{annee}/{slug}"]: - # ----- print('on reprend le contenu html existant') + #print('on reprend le contenu html existant') if len(files_dict[f"{annee}/{slug}"]['html_content']) > 0: html_content = files_dict[f"{annee}/{slug}"]['html_content'] if len(files_dict[f"{annee}/{slug}"]['html_content_without_h1']) > 0: @@ -207,8 +221,8 @@ if generate_linkings_json : if run_pandoc and rebuild_this_article_html or force_html_regen: # convertir le contenu d'article org vers html - # # ----- print(f"\033[91mBRRRRRRRRRRRRR pandoc time {time.strftime('%H:%M:%S')} : Conversion de {file_name} en html\033[0m") - # ----- print(f"\033[91m.\033[0m", end='', flush=True) + print(f"\033[91m {time.strftime('%H:%M:%S')} BRRRRRRRRRRRRR pandoc : {title} en html\033[0m") + # print(f"\033[91m.\033[0m", end='', flush=True) html_content = pypandoc.convert_text(content_without_h1, 'html', format='org') pandoc_runs_counter += 1 @@ -216,13 +230,14 @@ if generate_linkings_json : html_content = content_without_h1 # if run_gemini and rebuild_this_article_gemini: - # # ----- print('-----------on régénère le gemini') + # #print('-----------on régénère le gemini') # # convertir le contenu d'article org vers gmi pour la capsule gemini # gemini_content = org_to_gmi(content_without_h1) - # # ----- print('len(gemini_content)', len(gemini_content)) + # #print('len(gemini_content)', len(gemini_content)) # else: # print('-----------on ne régénère pas le gemini') if rebuild_this_article_gemini: + print(f"\033[91m {time.strftime('%H:%M:%S')} BRRRRRRRRRRRRR gemini : {title} en gmi\033[0m") gemini_content = org_to_gmi(content_without_h1) files_dict[f"{annee}/{slug}"] = { @@ -252,14 +267,14 @@ if generate_linkings_json : # Contenu gemini } - # ----- print(f"======= Nombre d'articles reconstruits: {rebuild_counter}") - # ----- print(f"======= Nombre de runs de pandoc: {pandoc_runs_counter}") + print(f"======= Nombre d'articles reconstruits: {rebuild_counter}") + print(f"======= Nombre de runs de pandoc: {pandoc_runs_counter}") else: print(f"Pas de génération des liens entre articles") # Trier les basenames par ordre décroissant sorted_basenames = sorted(files_dict.keys(), reverse=True) -# ----- print(len(sorted_basenames), 'articles trouvés') +#print(len(sorted_basenames), 'articles trouvés') template_content = get_blog_template_conf(args.blog) @@ -273,7 +288,7 @@ if enable_roam_id_rewrite: rewritten_html_content = html_content for roam_id, slug in articles_roam_id_to_slugs.items(): if roam_id is not None and isinstance(rewritten_html_content, str) and roam_id in rewritten_html_content: - # ----- print(f'{roam_id} -> {slug}') + #print(f'{roam_id} -> {slug}') rewritten_html_content = rewritten_html_content.replace(f'href="#{roam_id}"', f'href="{template_content["NDD"]}/{slug}"') info['rewritten_roam_links_html'] = rewritten_html_content @@ -294,15 +309,15 @@ os.makedirs(destination_json, exist_ok=True) # sauver le json de tous les articles et pages -if pandoc_runs_counter > 0 or not os.path.exists(json_file): - # ----- print(f"\033[91m Les articles ont changé, Génération du json {json_file} \033[0m") +if pandoc_runs_counter > 0 or not os.path.exists(json_file) or rebuild_articles_info_json: + print(f"\033[91m Les articles ont changé, Génération du json {json_file} \033[0m") with open( json_file, 'w', encoding='utf-8') as json_file: files_dict_serialized = json.dumps(files_dict, ensure_ascii=False, indent=4) json_file.write(files_dict_serialized) -# ----- print(f"Nombre d'articles trouvés : {len(sorted_basenames)}") +#print(f"Nombre d'articles trouvés : {len(sorted_basenames)}") count_articles_updated = 0 current_year = datetime.now().year for basename, info in files_dict.items(): @@ -311,7 +326,7 @@ for basename, info in files_dict.items(): if date_str > f'{current_year}0101': count_articles_updated += 1 -# ----- print(f"Nombre d'articles mis à jour après le 01 01 {current_year} : {count_articles_updated}") +#print(f"Nombre d'articles mis à jour après le 01 01 {current_year} : {count_articles_updated}") def generate_blog_index(json_file, template_file, output_file): @@ -391,23 +406,23 @@ Pages: # Écrire le fichier de sortie en html et en gmi with open(output_file, 'w', encoding='utf-8') as f: f.write(output_index_html) - # ----- print(f"Page d'index générée dans {output_file}") + #print(f"Page d'index générée dans {output_file}") os.makedirs(os.path.dirname(gmi_index_file), exist_ok=True) - # ----- print('gmi_index_file', gmi_index_file) + #print('gmi_index_file', gmi_index_file) with open(gmi_index_file, 'w', encoding='utf-8') as f: f.write(output_index_gmi) - # ----- print(f"Page d'index gemini générée dans {gmi_index_file}") + #print(f"Page d'index gemini générée dans {gmi_index_file}") # Générer la page d'index seulement si des articles ont été convertis -# if pandoc_runs_counter > 0: +if pandoc_runs_counter > 0 or run_gemini: # Appel de la fonction pour générer la page d'index -generate_blog_index(destination_json + '/articles_info.json', 'templates/html/index.html.jinja', destination_html + 'index.html') + generate_blog_index(destination_json + '/articles_info.json', 'templates/html/index.html.jinja', destination_html + 'index.html') -# ----- print(f"\033[91m index régénéré {destination_html}index.html \033[0m") + print(f"\033[91m index régénéré {destination_html}index.html \033[0m") # else: - # # ----- print("Aucun article n'a été converti, la page d'index n'est pas régénérée") + # #print("Aucun article n'a été converti, la page d'index n'est pas régénérée") def generate_article_pages(json_file, template_file, output_dir): @@ -419,69 +434,60 @@ def generate_article_pages(json_file, template_file, output_dir): :param output_dir: Répertoire de sortie pour les fichiers HTML. """ counter_gemini = 0 - # ----- print('generate_article_pages: ouverture du json') - # Charger les données JSON - try: + print(f"generate_article_pages: ouverture du json {json_file}") # Charger les données JSON - with open(json_file, 'r', encoding='utf-8') as f: - print('----------------------- yay json chargé') - articles_info = json.load(f) - # Configurer Jinja2 - env = Environment(loader=FileSystemLoader('.')) - template = env.get_template(template_file) - template_content = get_blog_template_conf(args.blog) - - # Générer les pages pour chaque article - for article in articles_info.values(): - print('----------------------- article', article['title']) - - if article['first_picture_url']: - template_content['OG_IMAGE'] = article['first_picture_url'] - else: - template_content['OG_IMAGE'] = template_content['SITE_ICON'] - - output_html = template.render( - template_content=template_content, - article=article, - all_articles=articles_info - ) - slug_to_use = article['slug_with_year'] - - # Déterminer le slug à utiliser selon le type d'article - if 'article_type' in article and article['article_type'] == 'article': - slug_to_use = article['slug_with_year'] - else: - slug_to_use = article['slug'] - # Construire le chemin de sortie html en fonction du slug avec l'année - output_subdir = os.path.join(output_dir, slug_to_use) - os.makedirs(output_subdir, exist_ok=True) - output_file = os.path.join(output_subdir ,"index.html") - # Écrire le fichier de sortie en HTML pour un article - with open(output_file, 'w', encoding='utf-8') as f: - f.write(output_html) - - print(f"Génération de la page gemini pour {article['title']}") - if 'gemini_content' in article and len(article['gemini_content']) > 0: - # Construire le chemin de sortie gmi en fonction du slug avec l'année - save_gemini_file(args.blog, article) - counter_gemini += 1 - else: - print(f"----------- on ne génère pas le gemini pour {article['slug']}") - - # ----- print('generate_article_pages: fin de génération de l index') - # ----- print(f"Nombre d'articles générés en gemini: {counter_gemini}") - except FileNotFoundError: - print(f"Erreur : Le fichier JSON {json_file} n'a pas été trouvé") - return - except json.JSONDecodeError: - print(f"Erreur : Le fichier JSON {json_file} est mal formaté") - return - except Exception as e: - print(f"Erreur lors de la lecture du fichier JSON : {json_file} {str(e)}") - return - with open(json_file, 'r', encoding='utf-8') as f: + print('----------------------- yay json chargé') articles_info = json.load(f) + # Configurer Jinja2 + env = Environment(loader=FileSystemLoader('.')) + template = env.get_template(template_file) + template_content = get_blog_template_conf(args.blog) + + print(f"articles count: {len(articles_info.values())}") + # Générer les pages pour chaque article + for article in articles_info.values(): + print('----------------------- article', article['title']) + + if article['first_picture_url']: + template_content['OG_IMAGE'] = article['first_picture_url'] + else: + template_content['OG_IMAGE'] = template_content['SITE_ICON'] + + output_html = template.render( + template_content=template_content, + article=article, + all_articles=articles_info + ) + slug_to_use = article['slug_with_year'] + + # Déterminer le slug à utiliser selon le type d'article + if 'article_type' in article and article['article_type'] == 'article': + slug_to_use = article['slug_with_year'] + else: + slug_to_use = article['slug'] + # Construire le chemin de sortie html en fonction du slug avec l'année + output_subdir = os.path.join(output_dir, slug_to_use) + print(f"output_subdir: {output_subdir}") + os.makedirs(output_subdir, exist_ok=True) + output_file = os.path.join(output_subdir ,"index.html") + + print(f"output_file: {output_file}") + # Écrire le fichier de sortie en HTML pour un article + with open(output_file, 'w', encoding='utf-8') as f: + f.write(output_html) + + print(f"Génération de la page gemini pour {article['title']}") + if 'gemini_content' in article and len(article['gemini_content']) > 0: + # Construire le chemin de sortie gmi en fonction du slug avec l'année + save_gemini_file(args.blog, article, articles_info, template_content) + counter_gemini += 1 + else: + print(f"----------- on ne génère pas le gemini pour {article['slug']}") + + return + + # if pandoc_runs_counter or run_gemini: @@ -490,7 +496,7 @@ generate_article_pages(destination_json + '/articles_info.json', 'templates/html # À la fin du script, calculer et afficher le temps d'exécution execution_time = time.time() - start_time -# ----- print(f"Temps d'exécution : {execution_time:.2f} secondes") +#print(f"Temps d'exécution : {execution_time:.2f} secondes") diff --git a/utils.py b/utils.py index 5d1bcbf7..3d61b3c8 100644 --- a/utils.py +++ b/utils.py @@ -536,31 +536,65 @@ def convert_org_to_gemini(org_content): raise -def save_gemini_file(blog, article): - - annee = article['annee'] - slug = slugify_title(article['title']) - title = article['title'] - gemini_content = article['gemini_content'] - gemini_file_path = article['gemini_file_path'] - - print(f"_________ Sauver l'article {slug} en gemini dans {gemini_file_path}") - year_gemini = f'gemini-capsules/{blog}/{annee}' - file_gemini=f'{year_gemini}/{slug}.gmi' +def save_gemini_file(blog_name, article, articles_info, template_content): + """ + Sauvegarde le contenu gemini d'un article - print(f"_________ créer le dossier : {year_gemini}") - os.makedirs(os.path.dirname(file_gemini), exist_ok=True) - gemini_file_path = file_gemini - website_title = configs_sites[blog]['BLOG_TITLE'] + Args: + blog_name (str): Nom du blog + article (dict): Dictionnaire contenant les informations de l'article + articles_info (dict): Dictionnaire contenant tous les articles + template_content (str): Contenu du template + """ + # Créer le dossier de destination s'il n'existe pas + os.makedirs(f"gemini-capsules/{blog_name}/{article['annee']}", exist_ok=True) - # Sauvegarde du contenu GMI dans un fichier - try: - # Créer le dossier parent s'il n'existe pas - # os.makedirs(os.path.dirname(gemini_file_path), exist_ok=True) - with open(gemini_file_path, 'w', encoding='utf-8') as f: - f.write( - f'# {website_title} \n ## {title} \n----------------\n {gemini_content} \n ----------------\n ## Liens\n=> index.gmi') - print(f"\033[92mFichier GMI sauvegardé avec succès : {gemini_file_path}\033[0m") - except OSError as e: - print(f"\033[92mErreur lors de la sauvegarde du fichier : {e}\033[0m") + # Construire les liens précédent/suivant + previous_article_link = "" + next_article_link = "" + tags = "" + if article['tags']: + tags = "Tags: " + ', '.join(article['tags']) + + if article['previous'] and articles_info and article['previous'] in articles_info: + prev = articles_info[article['previous']] + print('prev', prev['title']) + slug = slugify_title(prev['title']) + previous_article_link = f"=> {prev['annee']}/{slug}.gmi {prev['date_formattee']} - {prev['title']}" + + if article['next'] and articles_info and article['next'] in articles_info: + next_art = articles_info[article['next']] + print('next', next_art['title']) + slug = slugify_title(next_art['title']) + next_article_link = f"=> {next_art['annee']}/{slug}.gmi {next_art['date_formattee']} - {next_art['title']}" + + # Construire le contenu gemini complet + gemini_content = f"""# {article['title']} + +Date: {article['date_formattee']} + +{article['gemini_content']} +----------------------------------------------- +{tags} + +----------------------------------------------- +{template_content['SOUTIEN']} +----------------------------------------------- +Navigation: +""" + + if previous_article_link: + gemini_content += f"\nArticle précédent:\n{previous_article_link}" + + if next_article_link: + gemini_content += f"\nArticle suivant:\n{next_article_link}" + + gemini_content += f"""----------------------------------------------- + => index.gmi Index des articles + """ + # Sauvegarder le fichier + slug = slugify_title(article['title']) + os.makedirs(f"gemini-capsules/{blog_name}/{article['annee']}", exist_ok=True) + with open(f"gemini-capsules/{blog_name}/{article['annee']}/{slug}.gmi", "w", encoding="utf-8") as f: + f.write(gemini_content)