关于H文校对的一些技巧和疑问

赵州桥 · 发表于 2024-7-19 09:11:05

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？免费注册

x

起因：因为下载了吧内《P站超全合集30000+本加上大量细分tag分类》这个文件
问题：每文的开头都是以下格式：
['9260472', '女帝的一二三四五六事', '纪银徵和她的，嗯，男朋友们的故事？纯爱战士，退退退！', ['R-18G', '疼痛', '孕妇', '出产', '羊水', '中文', '妊娠', '恋愛', '孕交'], '`Moss', 5]

['1546193', '北国万象', '本系列现在仅作为都市背景的合集\n每一篇的具体设定并不一定完全相同', ['R-18G', 'オリジナル', '中国語', '剧情向', '処刑', '百合', '猎奇', '秀色', '血腥', '斩首'], '〆リクキ〆', 5]……

不影响观看，但是又有点不舒服，所以想要校对一下，经过一些努力，总算校准了一点，但是还是有一些问题，所以发帖和大家讨论一下。

校对软件：EmEditor

用正则表达式进行查找替换后可以把开头格式转换为图1图2所示：

表达式：查找\['\d{4,7}', '(.*?)', '(.*?)', \['(.*?)', '(.*?)'\], '(.*?)', (.*?)\] 替换\1\6\n\5\n\2\n\[\3，\4\]

经过校对后书名章节数作者简介都很好，但是在文章标签这块，也就是我举例中的['R-18G', '疼痛', '孕妇', '出产', '羊水', '中文', '妊娠', '恋愛', '孕交']和['R-18G', 'オリジナル', '中国語', '剧情向', '処刑', '百合', '猎奇', '秀色', '血腥', '斩首']这块出现一点小问题，并没有出现我希望的[R-18G，疼痛，孕妇，出产，羊水，中文，妊娠，恋愛，孕交]和[R-18G，オリジナル，中国語，剧情向，処刑，百合，猎奇，秀色，血腥，斩首]的格式，也就是替换后这里面还是出现了', '这个（如图），并没有替换成中文逗号，虽然可以进行二次处理，但是有点麻烦，经过检查，这是由于查找表达式中这一块', '(.*?)是连在一起被表达的，所以在替换中这一块中间的', '是没有被换成中文逗号，但是由于标签数量不固定，也就是可能是9个可能是10个或其它数量，所以尝试了很多办法，还是没有能够很好的处理，所以请吧友们帮帮忙，有什么方法能够处理。表达式引擎是Boost.regex。

yuliu1999 · 发表于 2024-7-23 07:14:24

因为我不太了解正则，所以花了半天找了找，有个叫“平衡组”的东西好像就是解决这种“标签里的标签”的问题的。
不过我不太懂，推荐您看看这个 https://blog.csdn.net/lxcnn/article/details/4402808

正经的讨论（思考人生）

[学习讨论] 关于H文校对的一些技巧和疑问

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

合作

站务管理

获得帮助

关于老王

更多发现

正经的讨论（思考人生）

[学习讨论] 关于H文校对的一些技巧和疑问

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

重要提示

合作

站务管理

获得帮助

关于老王

更多发现