[C#] Hướng dẫn chuyển đổi file PDF sang Microsoft Word
Xin chào các bạn, bài viết hôm nay mình sẻ hướng dẫn các bạn cách chuyển đổi file PDF sang định dạng văn bản Microsoft Word trong lập trình C# winform.
[C#] Convert PDF to MS Word Winform
Để convert file PDF sang Word trong bài viết này mình sẽ sử dụng 2 thư viện: PDFBox và Docx
Hai thư viện này các bạn có thể dễ dàng import vào project từ Nuget.
Dưới đây là file PDF demo:
Và dưới đây là kết quả sau khi convert sang văn bản TEXT:
Full source code convert pdf to word c#:
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Diagnostics;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using Xceed.Words.NET;
namespace PdfToRtf
{
public partial class Form1 : Form
{
public Form1()
{
InitializeComponent();
}
private void button1_Click(object sender, EventArgs e)
{
var dlg = new OpenFileDialog();
if (dlg.ShowDialog() == DialogResult.OK) {
textBox1.Text = dlg.FileName;
PDDocument doc = PDDocument.load(dlg.FileName);
PDFTextStripper stripper = new PDFTextStripper();
richTextBox1.Text = (stripper.getText(doc));
var name_doc = Path.GetFileNameWithoutExtension(dlg.FileName) + ".docx";
var worddoc = DocX.Create(name_doc);
worddoc.InsertParagraph(richTextBox1.Text);
worddoc.Save();
Process.Start(name_doc);
}
}
}
}
Thanks for watching!