python-docx
, lxml
, openpyxl
и PyPDF2
.### Преобразование DOCX в TXT
Для работы с DOCX файлами используем библиотеку
python-docx
.from docx import Document
def docx_to_txt(docx_path, txt_path):
doc = Document(docx_path)
with open(txt_path, 'w', encoding='utf-8') as txt_file:
for para in doc.paragraphs:
txt_file.write(para.text + '\n')
# Пример использования
docx_to_txt('example.docx', 'example.txt')
### Преобразование XML в TXT
Для работы с XML файлами используем библиотеку
lxml
.from lxml import etree
def xml_to_txt(xml_path, txt_path):
tree = etree.parse(xml_path)
root = tree.getroot()
with open(txt_path, 'w', encoding='utf-8') as txt_file:
for elem in root.iter():
txt_file.write(etree.tostring(elem, pretty_print=True).decode('utf-8') + '\n')
# Пример использования
xml_to_txt('example.xml', 'example.txt')
### Преобразование XLSX в TXT
Для работы с XLSX файлами используем библиотеку
openpyxl
.from openpyxl import load_workbook
def xlsx_to_txt(xlsx_path, txt_path):
wb = load_workbook(xlsx_path)
with open(txt_path, 'w', encoding='utf-8') as txt_file:
for sheet in wb.worksheets:
for row in sheet.iter_rows(values_only=True):
txt_file.write('\t'.join(map(str, row)) + '\n')
# Пример использования
xlsx_to_txt('example.xlsx', 'example.txt')
### Преобразование PDF в TXT
Для работы с PDF файлами используем библиотеку
PyPDF2
.import PyPDF2
def pdf_to_txt(pdf_path, txt_path):
with open(pdf_path, 'rb') as pdf_file:
reader = PyPDF2.PdfReader(pdf_file)
with open(txt_path, 'w', encoding='utf-8') as txt_file:
for page_num in range(len(reader.pages)):
page = reader.pages[page_num]
txt_file.write(page.extract_text() + '\n')
# Пример использования
pdf_to_txt('example.pdf', 'example.txt')
### Установка библиотек
Для установки необходимых библиотек используйте следующие команды:
pip install python-docx lxml openpyxl PyPDF2
Эти примеры демонстрируют базовые методы преобразования различных форматов файлов в текстовые файлы. В зависимости от структуры и содержания ваших файлов, возможно, потребуется дополнительная обработка данных.