今天需要用fastText做一个文本分类器,默认的训练文件的每一行格式是 “__label__classA sentence” ,目前有两个文件,第一个文件是所有的句子(如Afghanistan looks so different from here in America .),第二个文件是对应的label(如classB),需要把这两个文件整合成一个文件(如__label__classB Afghanistan looks so different from here in America .),具体代码如下:
1 | import codecs |
其中,为了解决文本中编码不统一带来的乱码问题,引入codecs包,设定以utf-8格式打开。为了解决同时打开两个文件的读写问题,先打开相应的文件,采用for循环,由.readline()函数自动循环。