博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用Python将HTML文档转换为Markdown文档
阅读量:6211 次
发布时间:2019-06-21

本文共 782 字,大约阅读时间需要 2 分钟。

前言

我的个人博客是Hexo+Next搭建的,风格我很喜欢,也不打算更换。最近可能电脑不好使了,两次重装系统,每次都要重新搭建博客,搭建速度也很快,但是依然有个困扰我的问题,那就是电脑卡死的时候有些博客没有备份,只有上传到Github生成的html文档。今天发现个有趣的python库,可以将html转换回markdown,试验了一下效果还不错。

代码

下面先上代码:

#Author:Sun Yan#Function: convert html to mdimport html2text as ht  # pip install html2textimport os text_maker = ht.HTML2Text()#text_maker.ignore_links = Truetext_maker.bypass_tables = Falsepath ="C:\\Users\\14050\\Desktop\\code\\1.html"htmlfile = open(path,'r',encoding='UTF-8')htmlpage = htmlfile.read()text = text_maker.handle(htmlpage)md = text.split('#')  # split post contentopen("1.md","w").write(md[1])  # write file as a md file

说明

安装库

在我的电脑上直接pip安装没有成功,我是在pypi上下载之后安装的 html2text

使用

使用也比较简单,注意两个地方即可:

  1. 忽略链接和表格

我这里是按照官方文档中写的,实际测试链接可以不忽略,表格没有测试。

2.#的作用

在这里使用#号来分割文章的核心内容,舍弃博客的header和footer。

转载地址:http://fadja.baihongyu.com/

你可能感兴趣的文章
挖掘下一个“现金牛” Facebook在组群功能中测试广告
查看>>
小心你的密码管理器 LastPass曝出安全漏洞
查看>>
315 曝光充电桩黑幕,还能不能好好充个电了?
查看>>
苹果为何变成了“诉讼狂魔”?
查看>>
2100万Gmail和500万雅虎账户在黑市公开售卖
查看>>
西班牙电信剥离网络架构资源设立Telxius公司
查看>>
交友网站数据库曝光了150万用户信息
查看>>
FAQ系列 | slow log中出现commit、binlog dump等奇怪的记录
查看>>
美国信息安全架构师的岗位职责和胜任资格
查看>>
111
查看>>
log4j2+flume+hadoop
查看>>
谨防过分依赖于有影响力的用户
查看>>
Totem推出一款太阳能路灯 能提供Wi-Fi和电动汽车充电
查看>>
Python API快餐教程(1) - 字符串查找API
查看>>
富士通推迟与联想业务整合计划:时间或为下个月
查看>>
印度光伏市场潜力巨大 正信光电拟积极扩大市场占有率
查看>>
福建将发展“智慧气象” 融入智慧城市建设
查看>>
智能家居几番追寻残缺依旧 山尽头才是海
查看>>
开放生态,智能联接——新华三绿洲平台起航
查看>>
下半年,定制智能家居会出现三大风暴?
查看>>